マルチモーダル学習の課題である動画、音声、テキストといった異種モダリティの統合的な学習を、時間整列モダリティと非整列モダリティを分離して自己回帰的に学習することで解決する。また、動画・音声特徴の効率的な表現学習を実現するCombimerモジュールを提案し、長時間の動画入力にも対応できる。