マルチモーダル大規模言語モデルの性能評価手法と課題を包括的に整理し、今後の研究方向性を提示する。
視覚情報を活用することで、音声認識の精度を向上させることができる。しかし、視覚情報は複雑であるため、様々な動画シナリオに対して堅牢に一般化できる視聴覚音声認識モデルの構築が重要な課題となっている。本研究では、専門家の組み合わせ(mixture-of-experts)を活用した視聴覚音声認識モデル「EVA」を提案し、野生の動画に対する堅牢な音声認識を実現する。
マルチモーダルモデルの訓練と推論中、データサンプルの一部のモダリティが欠落することがあり、これにより、センサーの制限、コスト制約、プライバシーの懸念、データ損失、時間的および空間的要因などのために、モデルのパフォーマンスが低下する。この調査では、深層学習手法に焦点を当てて、欠損モダリティを含むマルチモーダル学習(MLMM)の最近の進展について概説する。
提案フレームワークは、粗い段階での画像音声表現の整合性を学習する画像音声対比学習と、さらに詳細な整合性を学習する画像音声マッチング学習を統合的に学習することで、優れた画像音声検索性能を実現する。
マルチモーダルなゲーム情報を活用することで、ゲームの状況をより包括的に理解し、視聴者に魅力的な解説を生成することができる。
衛星画像を共通の基盤として、テキスト、画像、オーディオなどの異なるモダリティを統合的に表現する深層学習モデルを提案する。
マルチモーダル学習の課題である動画、音声、テキストといった異種モダリティの統合的な学習を、時間整列モダリティと非整列モダリティを分離して自己回帰的に学習することで解決する。また、動画・音声特徴の効率的な表現学習を実現するCombimerモジュールを提案し、長時間の動画入力にも対応できる。
本手法は、従来のマルチモーダル学習における共同最適化プロセスを交互ユニモーダル学習プロセスに変換することで、モダリティ間の干渉を最小限に抑え、同時にモダリティ間の相互作用を捕捉する。
オーディオ-画像の時間的一致を洗練することが、オーディオ-テキスト検索への知識転送に貢献することを示唆しています。