本研究は、視覚言語モデル(VLM)の一人称視点思考能力を包括的に評価するためのベンチマーク「EgoThink」を提案する。
まず、人間が現実世界と対話する際に考慮する一連の質問に着目し、6つの主要能力(物体、活動、位置、推論、予測、計画)と12の詳細な側面を定義した。次に、エゴセントリックビデオから選択したクリップを使用し、手動で注釈付けされた質問回答ペアを作成した。
続いて、21種類の人気VLMをEgoThinkで評価した。結果、GPT-4Vが多くの側面で最も優れた性能を示したが、活動や計数などの特定の能力では劣っていることが分かった。また、言語モデルのパラメータ数を増やすことが最も大きな影響を与えるが、その効果は一様ではないことが明らかになった。
最後に、VLMの一人称視点思考能力にはまだ大きな改善の余地があることが示された。EgoThinkは、エンボディドAIやロボティクス分野における今後の研究に不可欠なリソースとなる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Sijie Cheng,... at arxiv.org 03-29-2024
https://arxiv.org/pdf/2311.15596.pdfDeeper Inquiries