Abstrak
この論文は、深層学習技術が視覚音声学習の発展にどのように貢献しているかに焦点を当てています。記事は、口頭言語とビジュアルデータの組み合わせである「ビジュアルスピーチ」について包括的なレビューを提供し、現在の問題や将来の方向性について議論しています。
概要:
- 人間の話し言葉は自然なバイモーダルであり、ビジュアルスピーチは聴力障害者や聴力障害者向けに特に重要です。
- 自動ビジュアルスピーチ分析(VSA)は、多くの新興分野で重要な役割を果たします。
- VSAは主に2つの基本的な問題、すなわちビジュアルスピーチ認識(VSR)またはリップリーディングとビジュアルスピーチ生成(VSG)またはリップシーケンス生成を包含します。
主な洞察:
- 視覚音声表現学習とシーケンスモデリングがVSAの中心である。
- 伝統的な手法から深層学習への移行がVSA技術を前進させました。
- 大量データセットと大きな進歩が深層学習ベースのVSA研究を推進しました。
メトリクス:
- 「2016年から現在まで」のVSA技術のマイルストーンが示されています。
- 「LRW」「LRS3-TED」「Faceforensics++」など、代表的なデータセットが紹介されています。