Core Concepts
テキスト専用言語モデルは、位置情報を活用して空間関係を基盤化できることが示された。
Abstract
この論文では、テキスト専用言語モデル(LM)が位置情報を提供され、それらの位置を活用するよう適切にトレーニングされた場合、左側や下などの空間関係を基盤化できることが示されています。実験は、視覚的空間推論(VSR)データセットの口頭表現バージョンで行われました。画像は、画像内の2つのオブジェクト間の実際または偽の空間関係を含むテキストステートメントと組み合わせられます。我々は、オフシェルフのオブジェクト検出器を使用して画像を口頭表現し、各オブジェクトラベルに位置トークンを追加してその境界ボックスをテキスト形式で表現しました。VSRのサイズが小さいため、位置情報を使用した場合には改善が見られませんが、私たちが自動的に派生させた合成データセットでLMを事前トレーニングすると結果が大幅に改善します。したがって、位置情報はLMに空間関係を基盤化することを可能にし、私たちのテキスト専用LMはVision-and-Languageモデルよりも優れており、VSRデータセットにおいて最新技術水準を確立しています。
Stats
VSRデータセット内で最新技術水準を確立(74.52%)
Synthetic Spatial Training Dataset(SSTD)バリデーションセットで94.49%の精度
テキスト専用LMはVLMよりも優れた結果(73.69%)
Quotes
"Location tokens are effective to ground spatial relations, as shown by the positive results of our model."
"Our text-only LMs outperform baseline VLMs for VSR, obtaining the best results for the VSR task to date."