大規模ビジョン言語モデル (LVLM) は、視覚要素を認識することはできても、プロンプトの文脈における完全な解釈や、推論に不可欠な内部知識との効果的な関連付けに苦労しており、この「視覚的知覚のギャップ」が幻覚を生み出す。
命令対比デコーディング(ICD)は、標準命令と攪乱命令の分布の差異を利用することで、大規模ビジョン言語モデルの生成における幻覚を効果的に軽減する。