Core Concepts
GROUNDHOG は、大規模言語モデルを物体分割に基づいて接地することで、テキスト出力に画素レベルの物体接地を実現する。
Abstract
本研究では、GROUNDHOG と呼ばれる新しい多モーダル大規模言語モデルを提案している。GROUNDHOG は、マスク提案ネットワークを活用して画素レベルの視覚特徴を抽出し、大規模言語モデルにインプットすることで、言語とマスクの接地を実現する。
具体的には以下の特徴がある:
マスク提案ネットワークとして、物体、部品、テキストなど多様な視覚的概念を検出できる Mask2Former+ を使用
提案されたマスクから視覚特徴を抽出し、大規模言語モデルのインプットとする
言語モデルは、接地可能な語句と提案マスクの対応付けを学習する
これにより、従来の境界ボックスベースの接地に比べ、より詳細な画素レベルの接地が可能
また、本研究では M3G2 と呼ばれる大規模な多モーダル接地データセットを構築し、GROUNDHOG のトレーニングに活用している。M3G2 は4つのタスクタイプ(画像キャプショニング、指示表現セグメンテーション、視覚質問応答、参照対話)から成り、2.5Mの画像-テキストペアを含む。
実験の結果、GROUNDHOG は様々な接地タスクで優れた性能を示し、物体幻覚の問題も大幅に改善できることが確認された。また、接地プロセスの透明性も高く、失敗ケースの診断が容易であることが示された。
Stats
画像内の物体を正しく検出できないことが原因で、言語接地に失敗することがある。
例えば、"KWIK E MART"という単語を検出できずに、適切な接地ができない。
Quotes
"GROUNDHOG は、大規模言語モデルを物体分割に基づいて接地することで、テキスト出力に画素レベルの物体接地を実現する。"
"GROUNDHOG は様々な接地タスクで優れた性能を示し、物体幻覚の問題も大幅に改善できる。"