Core Concepts
大規模視覺言語モデルの幻覚は、モデル固有の特性に基づいて発生するため、一般的な指示データでは効果的に軽減できない。本研究では、モデルの幻覚特性を診断し、それに基づいて的確な指示データを生成することで、モデルの幻覚を効果的に軽減する。
Abstract
本研究は、大規模視覺言語モデル(LVLM)の幻覚問題に取り組んでいる。LVLMは画像と言語の理解を統合した強力なモデルだが、生成する応答に一貫性がなく、画像と整合しない「幻覚」が発生する問題がある。
研究では、LVLMの幻覚が各モデルで異なる特性を持つことを発見した。つまり、同じ画像に対して、異なるLVLMが異なる幻覚を生成する傾向がある。しかし、従来の指示データ生成手法は、このモデル固有の幻覚特性を考慮していなかった。
そこで本研究は、DFTG(Diagnose First, Then Generate)フレームワークを提案する。DFTGは2段階で構成される。第1段階では、モデルの画像に対する認識情報と画像の真の情報を抽出し、モデルの幻覚を診断する。第2段階では、診断結果に基づいて、モデル固有の幻覚を軽減する指示データを生成する。
実験の結果、DFTGで生成した指示データを用いてモデルをファインチューニングすると、従来手法に比べて幻覚が大幅に軽減されることが示された。これは、モデル固有の幻覚特性を考慮した指示データの重要性を示している。
Stats
同じ画像に対して、MiniGPT-4とmPlug-Owlは異なる幻覚オブジェクトを生成する。
MiniGPT-4の上位20個の幻覚オブジェクトには「雲」「空」が含まれるが、mPlug-Owlには「人」「車」が含まれる。
MiniGPT-4とmPlug-Owlの幻覚オブジェクトセットの重複率は45%以下、RBO値も0.3以下と低い。
Quotes
「大規模視覺言語モデルの幻覚は、モデル固有の特性に基づいて発生するため、一般的な指示データでは効果的に軽減できない。」
「DFTGは、モデルの幻覚特性を診断し、それに基づいて的確な指示データを生成することで、モデルの幻覚を効果的に軽減する。」