核心概念
大規模マルチモーダルモデルは物体の存在に関する幻覚を引き起こすことがあり、これを制御する手法を提案する。
要約
本研究は、大規模マルチモーダルモデルにおける物体存在に関する幻覚の問題に取り組んでいる。
まず、物体存在幻覚の評価方法として、CCEvalを提案している。CCEvalは、GPT-4を活用して物体の存在を正確に判断し、物体カバレッジや文長などの指標も考慮する。従来のVQAベースの評価では物体幻覚を正確に捉えられないことを示している。
次に、物体存在幻覚の原因を分析している。言語デコーダのサイズ拡大や訓練データ量の増加では改善が限定的であり、むしろビジョンエンコーダの入力解像度を上げることで大幅に改善できることを明らかにした。これは、ビジョンエンコーダが捉えられない物体について、言語モデルが独自に推測してしまうことが幻覚の主な原因であると考えられる。
そこで本研究では、HallE-Controlを提案している。これは、物体存在幻覚を制御するための手法で、言語モデルの出力に対して単一のパラメータを調整することで、文章に含まれる推測物体の割合を調整できる。実験の結果、物体幻覚を44%削減しつつ、物体カバレッジも維持できることを示している。
統計
物体存在幻覚は、ビジョンエンコーダが捉えられない物体について、言語モデルが独自に推測してしまうことが主な原因である。