Core Concepts
マルチモーダル学習の課題である動画、音声、テキストといった異種モダリティの統合的な学習を、時間整列モダリティと非整列モダリティを分離して自己回帰的に学習することで解決する。また、動画・音声特徴の効率的な表現学習を実現するCombimerモジュールを提案し、長時間の動画入力にも対応できる。
Abstract
本論文は、マルチモーダル学習の課題に取り組む新しいアプローチを提案している。
まず、動画・音声といった時間整列されたモダリティと、テキストといった非整列モダリティを分離して、それぞれ自己回帰的に学習するモデルを提案している。これにより、モダリティの特性に応じた適切な学習が可能となる。
次に、動画・音声特徴を効率的に表現するCombimerモジュールを提案している。Combimerは、動画・音声特徴を時間方向に連続的に学習し、圧縮された表現を生成する。これにより、長時間の動画入力にも対応できる。
実験では、複数の動画理解ベンチマークで最先端の性能を達成しており、特に長時間の動画入力に強いことが示されている。
Stats
動画は最大512フレームまで処理可能で、モデルサイズの増加なしに高性能を維持できる。
動画・音声特徴の圧縮表現を学習するCombimerモジュールにより、メモリ使用量を約30%、推論時間を約18%削減できる。