本研究では、GROUNDHOG と呼ばれる新しい多モーダル大規模言語モデルを提案している。GROUNDHOG は、マスク提案ネットワークを活用して画素レベルの視覚特徴を抽出し、大規模言語モデルにインプットすることで、言語とマスクの接地を実現する。
具体的には以下の特徴がある:
また、本研究では M3G2 と呼ばれる大規模な多モーダル接地データセットを構築し、GROUNDHOG のトレーニングに活用している。M3G2 は4つのタスクタイプ(画像キャプショニング、指示表現セグメンテーション、視覚質問応答、参照対話)から成り、2.5Mの画像-テキストペアを含む。
実験の結果、GROUNDHOG は様々な接地タスクで優れた性能を示し、物体幻覚の問題も大幅に改善できることが確認された。また、接地プロセスの透明性も高く、失敗ケースの診断が容易であることが示された。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문