本研究は、視覚言語モデルの一人称視点思考能力を包括的に評価するための新しいベンチマーク「EgoThink」を提案する。EgoThinkは6つの主要能力と12の詳細な側面を網羅し、オープンエンドの質問に対する回答生成を通じて、視覚言語モデルの一人称視点思考能力を評価する。