深層学習技術が視覚音声学習の発展を促進している。
本研究では、事前学習済みの音声認識モデルからの知識蒸留と、特徴量の正規化および安定化された前処理手法を導入することで、リソース効率の高い視覚音声認識モデルの性能を大幅に向上させた。