本稿では、大規模ビジョン言語モデル (LVLM) における幻覚の根本原因を探り、視覚的知覚のギャップを埋めることで推論能力を高める、シンプルかつ効果的なトレーニングフリーの手法である「視覚記述に基づくデコーディング (VDGD)」を提案する。
まず、既存のLVLMの評価を通して、視覚認識を必要とするプロンプトには効果的な既存の幻覚軽減技術が、推論や知識抽出を必要とする認知的なプロンプトには効果を発揮しないことを示す。
さらに、LVLMは視覚要素の認識は得意だが、プロンプトの文脈においてそれらを完全に解釈し、内部知識と効果的に関連付けることに苦労していることを明らかにする。この「視覚的知覚のギャップ」が、認知的推論タスクにおける幻覚の発生源となっている。
これを克服するために提案されたVDGDは、人間が複雑な推論タスクに取り組む際に、画像の重要な観察点を書き留めて参照することから着想を得ている。具体的には、まずLVLM自身に画像の説明を生成させ、それを元のプロンプトの前に付加する。次に、デコーディング中に各トークンの生成時に、そのトークンと生成された説明との乖離度を計算し、乖離度の低いトークンを選択することで、応答の生成を視覚記述にグラウンディングする。
実験の結果、VDGDは様々な推論ベンチマークにおいて、既存の手法を2%から33%上回る性能を示し、幻覚を効果的に軽減することが確認された。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Sreyan Ghosh... kl. arxiv.org 10-15-2024
https://arxiv.org/pdf/2405.15683.pdfDybere Forespørgsler