핵심 개념
大規模ビジョン言語モデル (LVLM) は、視覚要素を認識することはできても、プロンプトの文脈における完全な解釈や、推論に不可欠な内部知識との効果的な関連付けに苦労しており、この「視覚的知覚のギャップ」が幻覚を生み出す。
초록
本稿では、大規模ビジョン言語モデル (LVLM) における幻覚の根本原因を探り、視覚的知覚のギャップを埋めることで推論能力を高める、シンプルかつ効果的なトレーニングフリーの手法である「視覚記述に基づくデコーディング (VDGD)」を提案する。
まず、既存のLVLMの評価を通して、視覚認識を必要とするプロンプトには効果的な既存の幻覚軽減技術が、推論や知識抽出を必要とする認知的なプロンプトには効果を発揮しないことを示す。
さらに、LVLMは視覚要素の認識は得意だが、プロンプトの文脈においてそれらを完全に解釈し、内部知識と効果的に関連付けることに苦労していることを明らかにする。この「視覚的知覚のギャップ」が、認知的推論タスクにおける幻覚の発生源となっている。
これを克服するために提案されたVDGDは、人間が複雑な推論タスクに取り組む際に、画像の重要な観察点を書き留めて参照することから着想を得ている。具体的には、まずLVLM自身に画像の説明を生成させ、それを元のプロンプトの前に付加する。次に、デコーディング中に各トークンの生成時に、そのトークンと生成された説明との乖離度を計算し、乖離度の低いトークンを選択することで、応答の生成を視覚記述にグラウンディングする。
実験の結果、VDGDは様々な推論ベンチマークにおいて、既存の手法を2%から33%上回る性能を示し、幻覚を効果的に軽減することが確認された。
통계
既存の幻覚軽減技術は、視覚認識プロンプトでは効果を発揮するが、推論を必要とする認知的プロンプトには効果がない。
LVLMsは、視覚認識タスクでは高いBase Rankを示すが、推論タスクでは低いBase Rankを示す。
幻覚トークンのlogit空間は、確信度が低く、かつほぼ等しい確信度を持つ少数のトークンによって占められている。
VDGDは、様々なベンチマークにおいて、既存の手法を2%から33%上回る性能を示した。
인용구
"LVLMs often rely on language priors rather than attending to the input image when generating responses to reasoning prompts."
"While LVLMs can accurately recognize visual elements and possess the necessary knowledge and reasoning skills to respond factually, they struggle to perceive and interpret these elements in relation to the input prompt."
"VDGD grounds token generation by selecting the token that deviates the least from the description."