Belangrijkste concepten
本稿では、従来のマルチモーダル大規模言語モデル(MLLM)において視覚エンコーダの潜在能力を最大限に活用できていない点を指摘し、多層視覚特徴を活用することで、視覚理解能力を大幅に向上させることができるDense Connectorを提案する。
Samenvatting
Dense Connector for MLLMs 概要
本稿は、マルチモーダル大規模言語モデル(MLLM)における視覚エンコーダの潜在能力を最大限に活用するために、Dense Connectorと呼ばれるシンプルかつ効果的なビジョン言語コネクタを提案する論文です。
従来のMLLMは、主に言語側の改善に焦点が当てられており、視覚情報は凍結された視覚エンコーダから抽出された高レベルの特徴のみが使用されていました。しかし、視覚エンコーダの異なる層は、画像の異なる側面を捉えているため、高レベルの特徴のみを使用することは、視覚情報の潜在能力を十分に活用しているとは言えません。
Dense Connectorは、凍結された視覚エンコーダの複数層からの視覚特徴を活用することで、既存のMLLMの視覚表現を強化します。具体的には、以下の3つの方法で実装されます。
Sparse Token Integration (STI)
異なる層から選択された視覚トークンと最終層の視覚トークンを連結し、学習可能なプロジェクタに入力することで、テキスト空間へマッピングします。
Sparse Channel Integration (SCI)
トークン数を増加させずに、異なる層から選択された視覚トークンを特徴次元で連結し、プロジェクタに入力します。プロジェクタは、視覚トークンをテキスト空間へマッピングすると同時に、特徴量の次元削減も行います。
Dense Channel Integration (DCI)
特定の層からの特徴量だけでなく、すべての層からの視覚特徴を活用します。隣接する層の特徴量を統合することで、冗長性と次元数を削減しながら、広範囲の視覚層にわたる高密度な接続を実現します。