toplogo
Sign In

テキスト専用言語モデルにおける空間関係の基盤化


Core Concepts
テキスト専用言語モデルは、位置情報を活用して空間関係を基盤化できることが示された。
Abstract
この論文では、テキスト専用言語モデル(LM)が位置情報を提供され、それらの位置を活用するよう適切にトレーニングされた場合、左側や下などの空間関係を基盤化できることが示されています。実験は、視覚的空間推論(VSR)データセットの口頭表現バージョンで行われました。画像は、画像内の2つのオブジェクト間の実際または偽の空間関係を含むテキストステートメントと組み合わせられます。我々は、オフシェルフのオブジェクト検出器を使用して画像を口頭表現し、各オブジェクトラベルに位置トークンを追加してその境界ボックスをテキスト形式で表現しました。VSRのサイズが小さいため、位置情報を使用した場合には改善が見られませんが、私たちが自動的に派生させた合成データセットでLMを事前トレーニングすると結果が大幅に改善します。したがって、位置情報はLMに空間関係を基盤化することを可能にし、私たちのテキスト専用LMはVision-and-Languageモデルよりも優れており、VSRデータセットにおいて最新技術水準を確立しています。
Stats
VSRデータセット内で最新技術水準を確立(74.52%) Synthetic Spatial Training Dataset(SSTD)バリデーションセットで94.49%の精度 テキスト専用LMはVLMよりも優れた結果(73.69%)
Quotes
"Location tokens are effective to ground spatial relations, as shown by the positive results of our model." "Our text-only LMs outperform baseline VLMs for VSR, obtaining the best results for the VSR task to date."

Key Insights Distilled From

by Gorka Azkune... at arxiv.org 03-21-2024

https://arxiv.org/pdf/2403.13666.pdf
Grounding Spatial Relations in Text-Only Language Models

Deeper Inquiries

他のタスクへの応用性や拡張性など、このアプローチから得られる知見は何か?

この研究によって、テキストだけを用いた言語モデルが空間関係を理解し表現する方法が示されました。このアプローチは、画像以外の情報源からも空間的な概念を学習できる可能性を示しています。これは、ドキュメントのレイアウトタスクやテキスト内での空間的推論など、さまざまな領域に適用できる可能性があります。また、SSTDという合成データセットを使用してLMを訓練する手法は汎化能力も高く、新しいタスクに対しても適用可能です。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star