核心概念
多様モダリティ大規模言語モデルの上位層は局所的な情報に過度に集中しており、大域的な意味情報をエンコードする能力が低下する傾向がある。
要約
本研究は、多様モダリティ大規模言語モデル(MLLM)の大域的および局所的な意味表現を探索するものである。
まず、画像-テキスト推論タスクを設計し、MLLMの大域的な多様モダリティ情報をエンコードする能力を調査した。実験の結果、モデルの上位層ではなく中間層の表現ベクトルが最も良好なパフォーマンスを示すことが分かった。これは、上位層がトークンの局所的な情報に集中しすぎるため、大域的な意味情報をエンコードする能力が低下していることを示唆している。
次に、オブジェクト認識タスクを用いて局所的な意味表現を探索した。上位層の表現ベクトルは、与えられたオブジェクトカテゴリ以外の情報をランダムにエンコードする傾向があり、大域的な意味情報を失っていることが明らかになった。一方、下位層の表現ベクトルは、与えられたカテゴリ情報を活用して、より良好なオブジェクト認識性能を示した。
以上の結果から、デコーダ型MLLMの上位層は局所的な情報に過度に集中しており、大域的な意味情報をエンコードする能力が低下する可能性が示唆された。本研究の知見は、MLLMのプリトレーニング手法の改善や、アーキテクチャの設計に示唆を与えるものと期待される。
統計
上位層の表現ベクトルは、与えられたオブジェクトカテゴリ以外の情報をランダムにエンコードする傾向がある。
下位層の表現ベクトルは、与えられたカテゴリ情報を活用して、より良好なオブジェクト認識性能を示す。
引用
多様モダリティ大規模言語モデルの上位層は局所的な情報に過度に集中しており、大域的な意味情報をエンコードする能力が低下する傾向がある。
デコーダ型MLLMのプリトレーニング目的と大域的な意味情報をエンコードする能力との間にギャップが存在する可能性がある。