異なるタスクのデータを単純に混合するとパフォーマンスが低下するという「マルチタスク競合」問題に対処するため、疎に活性化される複数のエキスパートを用いてマルチタスク能力を獲得する、大規模マルチモーダルモデルに適した安定したMixture of Experts(MoE)アーキテクチャであるAwaker2.5-VLを提案する。
本稿では、従来のマルチモーダル大規模言語モデル(MLLM)において視覚エンコーダの潜在能力を最大限に活用できていない点を指摘し、多層視覚特徴を活用することで、視覚理解能力を大幅に向上させることができるDense Connectorを提案する。
従来の「Any-to-Any」モデルでは、テキストと単一のモダリティ(画像、音声、動画など)のペアでの生成しかできなかったが、本稿で提案する「Any-to-Many」モデル「Spider」は、テキストと複数のモダリティを組み合わせた出力(例:テキスト+画像+音声)を一度の応答で生成することを可能にする。
本稿では、高解像度画像や高フレームレート動画の長文コンテキストを効率的に処理できるハイブリッドTransformer-MAMBAモデルを用いた、マルチモーダル命令チューニング手法を提案する。
マルチモーダル大規模言語モデル(MLLM)は、テキスト、画像、音声、動画など、さまざまなデータタイプを統合して理解することで、AIと生成モデルに革命をもたらしています。
質問応答に加えて、質問生成と評価の能力をマルチモーダル大規模言語モデル(MLLM)に組み込むことで、より包括的な画像理解と全体的なパフォーマンスの向上が可能になる。
本稿では、マルチモーダル大規模言語モデル(MLLM)において、Vision Transformer内の「視覚アンカー」と呼ばれる重要な視覚情報を特定し、これを情報集約に活用する新しいビジョン言語コネクタ「Anchor Former(AcFormer)」を提案する。視覚アンカーは、画像内の重要な領域を捉えたものであり、従来の情報集約モジュールよりも効率的かつ効果的に視覚情報を集約できる。
GPT4Videoは、動画の理解と生成を単一のフレームワークで行う、安全性を考慮したマルチモーダル大規模言語モデルである。
視覚言語タスクの学習によって生じる大規模言語モデルの言語能力低下は、継続学習の手法を用いることで効果的に軽減できる。
オープンソースのマルチモーダル命令データセットの規模と品質の限界が、クローズドソースモデルと比較してパフォーマンスを低下させているという課題に対し、本稿では、厳格な品質フィルタリングと重複排除を通じて強化された、4,000 万サンプルの大規模マルチモーダル命令データセットである Infinity-MM を導入することで、この制限に対処しています。