本研究では、視覚-言語プリトレーニング(VLP)モデルの地域理解能力の限界に取り組んでいる。従来のVLPモデルは、画像-テキストペアデータに基づいて学習されており、画像全体の粗い情報しか捉えられないという課題があった。
そこで本研究では、Localized Narrativesデータセットを活用し、ユーザーが指定した画像の特定の領域に対応したキャプションを生成できるRegionVLMを提案する。具体的には、マウストラジェクトリの座標情報をテキスト形式で入力することで、Q-Formerモジュールが領域情報を捉えられるようにしている。これにより、ユーザーが指定した領域に対応したキャプションを生成できるようになる。
実験の結果、提案手法は対話型システムの実現や、領域理解を必要とする様々なタスク(物体参照セグメンテーション、視覚常識推論など)で優れた性能を示した。また、従来のVLPモデルの全体理解能力も維持できることが確認された。
翻譯成其他語言
從原文內容
arxiv.org
深入探究