Core Concepts
VLMにおける幻覚を軽減するためのESREALフレームワークは、意味再構築を活用し、幻覚したトークンを正確に特定して細かい報酬を割り当てることで、VLMが効果的に学習して幻覚的なコンテンツを抑制できることを示しています。
Abstract
幻覚問題への新しいアプローチであるESREALフレームワークが紹介されている。
ESREALは、意味再構築と細かい報酬割り当てによってVLMの信頼性向上に貢献する。
データ駆動アプローチではなく、未監督学習フレームワークである点が強調されている。
Introduction
VLM(Vision-Language Models)の進化と幻覚問題の重要性が述べられている。
現在の方法では幻覚問題を正確に特定・軽減することが難しいと指摘されている。
Method
ESREALは未監督学習フレームワークであり、トークンレベルの幻覚スコア計算や報酬割り当てなどが詳細に説明されている。
Experiments
ESREALは3つのオープンソースVLMで実験され、CHIARメトリックやFaithScoreなどで優れた結果を示している。
さらにGPT-4Vを使用した評価も行われ、ESREALが各種タイプの幻覚を効果的に軽減していることが示されている。
Stats
我々のフレームワークはLLaVA、InstructBLIP、mPLUG-Owl2におけるCHAIRメトリックで32.81%、27.08%、7.46%改善した。
ESREALは画像自体から得られた信号だけでこの改善を達成した。