Core Concepts
視覚言語モデルにおける視覚的幻覚の8つの詳細なカテゴリを特定し、それらを定量化する。
Abstract
本論文は、視覚言語モデル(VLM)における視覚的幻覚の包括的な分類を提供しています。
まず、8つの主要な視覚的幻覚のカテゴリを特定しました:
文脈的推測(CG)
同一性の不一致(II)
地理的誤り(GE)
視覚的錯覚(VI)
性別の異常(GA)
VLMの分類器としての機能(VC)
誤読(WR)
数値の不一致(ND)
次に、画像キャプショニングとビジュアルQAの2つのタスクでVLMを評価し、これらのカテゴリを定量化しました。
データセットの構築では、ニューヨークタイムズのツイートを使用し、8つのVLMモデルを適用して2,000件のサンプルを生成しました。人手による注釈も行いました。
最後に、視覚的幻覚を軽減するための3つの主要なアプローチ(データ駆動型、トレーニング調整、ポストプロセス)について概説しました。
Stats
文脈的推測は、モデルが画像と関係のない要素を生成することを示す。
同一性の不一致は、モデルが人物の実際の特徴と予測された特徴の間に不一致があることを示す。
地理的誤りは、モデルが場所や地標を正確に予測できないことを示す。