大規模なマルチモーダルデータを活用し、自己教師あり学習によって事前学習された大規模なマルチモーダルモデルは、さまざまな下流タスクで優れた性能を発揮する。
オムニフュージョンモデルは、大規模言語モデルと視覚特徴抽出アダプターを統合し、テキストと画像の融合処理を行うことで、視覚言語タスクにおいて優れた性能を発揮する。
大規模言語モデルを活用し、階層的な知識蒸留フレームワークを提案することで、単一のマルチモーダル言語モデルを用いて、オープンエンドの複雑タスクを効率的に処理できる。
マルチモーダル大規模言語モデルは単一モーダルバイアスに過度に依存しており、複雑なマルチモーダルタスクでは正しい答えを出せない。