Core Concepts
VLMsの理解不足を補うため、空間関係の理解を向上させる新しいアプローチを提案する。
Abstract
最近の研究では、VLMsが細かい理解力(動詞、属性、関係性など)に欠けていることが示されています。本研究は、画像とテキストの一致を向上させるために、物体位置の「グラウンディング」能力が重要であることを示しています。具体的には、物体とその位置に対応する名詞句を結合し、空間節の最終ランクを計算する方法を提案しています。このアプローチはLXMERT、GPV、MDETRなどの代表的なVLMsで実証されており、空間関係の推論能力を比較・強調しています。
Stats
表1: VSRトレーニングセットでファインチューニングした後のVSRテストセットパフォーマンス。
表2: LXMERTモデルによるオリジナルVSRテストセットでの結果。
表3: 提案手法の実験結果(トップ1およびトップ3)。
Quotes
"Several recent works showed that these models lack fine-grained understanding, such as the ability to count and recognize verbs, attributes, or relationships."
"We propose an alternative fine-grained, compositional approach for recognizing and ranking spatial clauses."
"Our approach outperformed the SOTA models in terms of the relative increase over the random chance for each setting."