核心概念
命令対比デコーディング(ICD)は、標準命令と攪乱命令の分布の差異を利用することで、大規模ビジョン言語モデルの生成における幻覚を効果的に軽減する。
要約
本論文は、大規模ビジョン言語モデル(LVLM)における幻覚の問題に取り組んでいる。
- 幻覚とは、LVLMが生成する文章が視覚的な内容を正確に反映していない現象を指す。
- 分析の結果、命令に攪乱を加えることで幻覚が増大することが明らかになった。これは、命令の攪乱が多様性アラインメントの不確実性を高め、統計的バイアスや言語プライオリティの影響を増大させるためである。
- 本研究では、命令対比デコーディング(ICD)という新しい手法を提案する。ICDは、標準命令と攪乱命令の分布の差異を利用して、幻覚概念を抑制する。
- 実験の結果、ICDは物体レベルおよび属性レベルの幻覚を大幅に軽減し、LVLMの一般的な認識・理解能力も向上させることが示された。
統計
攪乱命令を加えると、LVLMは頻出物体の幻覚を大幅に増大させる。
攪乱命令を加えると、LVLMは物体間の共起関係に基づく幻覚を顕著に増大させる。
引用
命令の攪乱は、多様性アラインメントの不確実性を高め、統計的バイアスや言語プライオリティの影響を増大させる。
命令対比デコーディング(ICD)は、標準命令と攪乱命令の分布の差異を利用して、幻覚概念を抑制する。