音声情報を補助情報源として活用し、音声と視覚情報の両方のグローバルおよびローカルな対応関係を利用することで、視覚音声認識(VSR)のパフォーマンスを向上させることができる。
本研究では、事前学習済みの音声認識モデルからの知識蒸留と、特徴量の正規化および安定化された前処理手法を導入することで、リソース効率の高い視覚音声認識モデルの性能を大幅に向上させた。
深層学習技術が視覚音声学習の発展を促進している。