本研究では、視覚-言語モデル (V-LLM) の空間認識能力を向上させるための手法を提案している。
具体的には、画像内の物体の位置情報を自然言語で表現する方法を検討し、それを活用した3つの学習目的を導入している。
これらの学習目的を導入することで、V-LLMの空間推論能力が向上し、視覚質問応答 (VQA) や物体ハルシネーション抑制、領域記述などのタスクで優れた性能を発揮することが示された。
また、擬似データ生成手法を提案し、データ効率的な学習を実現している。
さらに、ビデオドメインへの適用も検討し、ビデオVQAタスクでも良好な結果を得ている。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Kanchana Ran... kl. arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07449.pdfDybere Forespørgsler