核心概念
視覚-言語モデルの空間認識能力を向上させるために、画像空間の座標情報を自然言語で表現する手法を提案し、それを活用した学習目的を導入することで、視覚質問応答などのタスクにおける性能を向上させることができる。
摘要
本研究では、視覚-言語モデル (V-LLM) の空間認識能力を向上させるための手法を提案している。
具体的には、画像内の物体の位置情報を自然言語で表現する方法を検討し、それを活用した3つの学習目的を導入している。
- 位置予測 (LocPred): 物体カテゴリを与えられた際に、その物体の位置 (座標) を生成する。
- 否定予測 (NegPred): 画像に存在しない物体の位置を尋ねられた際に、"そのような物体はない"と応答する。
- 逆位置予測 (RevLoc): 画像内の特定の位置 (座標) について、その位置にある物体を記述する。
これらの学習目的を導入することで、V-LLMの空間推論能力が向上し、視覚質問応答 (VQA) や物体ハルシネーション抑制、領域記述などのタスクで優れた性能を発揮することが示された。
また、擬似データ生成手法を提案し、データ効率的な学習を実現している。
さらに、ビデオドメインへの適用も検討し、ビデオVQAタスクでも良好な結果を得ている。
統計資料
画像内の物体の位置は(x1, y1, x2, y2)の4つの座標値で表現される。
画像内に存在しない物体の位置を尋ねられた際の正解ラベルは"そのような物体はない"である。
画像内の特定の位置について、その位置にある物体を記述する際の出力は自然言語で表現される。