Core Concepts
CRG improves vision-language models by guiding them to focus on specific regions in images without additional training.
Abstract
ビジョン言語モデルのパフォーマンス向上において、特定の領域に焦点を当てるためにCRGが効果的であることが示されました。CRGは、視覚プロンプトに従う能力を解放し、空間理解や構成性などのタスクでモデルの性能を向上させます。さらに、画像生成モデルや参照表現理解などのタスクでも有用性が示されています。
Stats
CRGはViP-Benchの6つの異なるタスクで平均11.1%の精度向上を達成した。
CRGはWhat’sUpベンチマークで最も難しい設定で8.3%以上の改善を実現した。
SugarCrepeでは、CRGは構成的一般化において平均11.5%から7.5%の精度向上をもたらした。
Quotes
"Improving models’ visual prompt following ability has the potential to increase performance across a wide variety of VL domains where fine-grained reasoning is key."
"CRG achieves substantial improvements in a wide variety of VL tasks."
"Applying CRG to LLaVA-1.6-34B results in further improvements of 2.1%, 1.3%, 3.8% in the REC, OCR, and MATH categories, respectively."