現有的基於三維的大型語言模型缺乏情境理解能力,本文提出了一個新的三維數據集 Spartun3D 和一個包含情境空間對齊模塊的新模型 Spartun3D-LLM,以提升大型語言模型對三維場景的情境理解能力。
本稿では、大規模言語モデル(LLM)の3Dシーン理解における状況依存理解の欠如という課題に取り組み、新たなデータセット「SPARTUN3D」と、LLMに空間認識能力を組み込んだ「SPARTUN3D-LLM」を提案しています。
This paper introduces Spartun3D, a large-scale situated 3D dataset, and Spartun3D-LLM, a novel 3D-based LLM architecture, to significantly enhance the situated spatial understanding capabilities of LLMs in 3D environments.