核心概念
LLMを活用し、様々なタスクを統一的に生成問題として扱うことで、3Dナビゲーションに必要な幅広い能力を備えた汎用モデルを学習する。
要約
本研究では、LLMを活用した汎用的な3Dナビゲーションモデル「NaviLLM」を提案している。NaviLLMは、タスクを生成問題として統一的に扱うためのスキーマベースの命令を導入することで、様々なデータソースを統合的に活用できるようになっている。
具体的には以下の通り:
視覚-言語ナビゲーション、オブジェクト位置特定、軌跡要約、3D質問応答、エンボディド質問応答などの多様なタスクを、生成問題としてモデル化している
これらのタスクのデータを統合的に活用することで、幅広い能力を備えた汎用モデルを学習できる
実験の結果、NaviLLMは複数のベンチマークで最先端の性能を達成し、さらに未知のタスクにも優れた汎用性を示した
以上のように、NaviLLMは、LLMを活用し、様々なタスクを統一的に扱うことで、3Dナビゲーションに必要な幅広い能力を備えた汎用モデルを実現している。
統計
本研究で提案するNaviLLMは、CVDN、SOON、R2R、REVERIE、ScanQAなどのデータセットを統合的に活用することで、優れた性能を達成している。
CVDNベンチマークでは、従来手法に比べて29%もの大幅な改善を示している。
引用
"LLMの進歩は、3Dナビゲーションのための汎用モデルの構築に新たな機会を提供している。"
"本研究では、スキーマベースの命令を導入することで、様々なタスクを統一的な生成問題として扱うことができる。"
"実験の結果、NaviLLMは複数のベンチマークで最先端の性能を達成し、さらに未知のタスクにも優れた汎用性を示した。"