本論文は、マルチモーダル学習の課題に取り組む新しいアプローチを提案している。
まず、動画・音声といった時間整列されたモダリティと、テキストといった非整列モダリティを分離して、それぞれ自己回帰的に学習するモデルを提案している。これにより、モダリティの特性に応じた適切な学習が可能となる。
次に、動画・音声特徴を効率的に表現するCombimerモジュールを提案している。Combimerは、動画・音声特徴を時間方向に連続的に学習し、圧縮された表現を生成する。これにより、長時間の動画入力にも対応できる。
実験では、複数の動画理解ベンチマークで最先端の性能を達成しており、特に長時間の動画入力に強いことが示されている。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы