Keskeiset käsitteet
視覚情報を活用することで、音声認識の精度を向上させることができる。しかし、視覚情報は複雑であるため、様々な動画シナリオに対して堅牢に一般化できる視聴覚音声認識モデルの構築が重要な課題となっている。本研究では、専門家の組み合わせ(mixture-of-experts)を活用した視聴覚音声認識モデル「EVA」を提案し、野生の動画に対する堅牢な音声認識を実現する。
Tiivistelmä
本研究では、視聴覚音声認識モデル「EVA」を提案している。EVAは以下の3つの特徴を持つ:
- 堅牢な事前学習済み音声認識モデルを基盤としており、一般化能力を確保している。
- 視覚情報をトークン系列に符号化し、音声空間にマッピングする軽量なプロジェクションを導入している。
- 専門家の組み合わせ(mixture-of-experts)モジュールを用いて、事前学習済みの音声認識モデルの能力を維持しつつ、視覚理解能力を効果的に組み込んでいる。
実験の結果、EVAは3つのベンチマークデータセットにおいて最先端の性能を達成し、様々なドメインの動画に対する一般化能力の高さを示している。特に、エゴセントリックなビデオデータセットEgo4Dにおいて、大幅な性能向上が確認された。
Tilastot
野生の動画環境では、シーンの多様性、自然な発話、様々なノイズレベルなどの課題により、音声認識モデルの精度が低下する。
視覚情報は音声認識の精度を向上させる強力な文脈情報を提供できる。
従来の視聴覚音声認識モデルは、特定の話者の口の動きに焦点を当てていたが、野生の動画では全体の視覚フレームが重要となる。
Lainaukset
"視覚信号は、追加の文脈情報を提供することで、視聴覚音声認識の精度を向上させることができる。"
"野生の動画では、全体の視覚フレームが音声認識のパフォーマンスに寄与するため、モデルは十分な一般化能力を持つ必要がある。"