視覚情報を活用することで、音声認識の精度を向上させることができる。しかし、視覚情報は複雑であるため、様々な動画シナリオに対して堅牢に一般化できる視聴覚音声認識モデルの構築が重要な課題となっている。本研究では、専門家の組み合わせ(mixture-of-experts)を活用した視聴覚音声認識モデル「EVA」を提案し、野生の動画に対する堅牢な音声認識を実現する。