核心概念
画像と説明文の構造的類似性を活用することで、ゼロショット参照表現理解の性能を向上させることができる。
要約
本論文は、ゼロショット参照表現理解の問題に取り組んでいる。
参照表現理解とは、画像中の対応する領域を特定するタスクである。
著者らは以下の2つのアプローチを提案している:
- 画像と説明文をそれぞれ(主語、述語、目的語)の三つ組みに分解し、これらの構造的類似性を計算することで、参照表現と対応する領域を特定する。
- 説明文の三つ組みを ChatGPT を用いて抽出する
- 画像の三つ組みは、物体検出器の出力を用いて生成する
- 三つ組み間の構造的類似性を計算し、これを個体レベルの類似性に伝播させる
- 人物-物体相互作用データセットなどを用いて、VLA (Vision-Language Alignment) モデルの関係理解能力を向上させる。
- 三つ組み単位の対照学習を行うことで、VLA モデルの関係理解能力を高める
実験の結果、提案手法は RefCOCO/+/g データセットにおいて最先端手法を19.5%上回る性能を達成し、Who's Waldo データセットでは教師あり手法と同等の精度を達成した。
統計
画像中の物体間の重なり面積が、説明文中の空間関係を表す指標として利用される。
説明文中の単語数は、Who's Waldo データセットで約30単語と長い。