Core Concepts
SayNavは、大言語モデルを活用して、未知の大規模環境で効率的に複数の異なる物体を探索するナビゲーション手法を提案する。
Abstract
SayNavは、3つのモジュールから構成されている:
増分的なシーングラフ生成モジュール:
探索中に蓄積された観測情報を用いて、3Dシーングラフを段階的に構築・拡張する。
シーングラフには、物体、家具、部屋、家といった空間概念とその関係が表現される。
高レベルの大言語モデルベースの動的プランナーモジュール:
現在の位置周辺のシーングラフの一部を抽出し、テキストプロンプトとして大言語モデルに入力する。
大言語モデルは、この入力に基づいて、状況に応じた効率的な探索計画を動的に生成する。
生成された計画は、低レベルのプランナーによって実行される。
低レベルのプランナーモジュール:
大言語モデルが生成した各ステップを、短距離の目標地点への移動サブタスクとして扱う。
事前に学習された低レベルのプランナーが、これらのサブタスクを実行する。
SayNavは、大言語モデルの知識を効果的に活用することで、未知の大規模環境での複雑なナビゲーション課題を効率的に解決できる。実験結果では、SayNavが強力なオラクルベースのベースラインを上回る性能を示した。
Stats
物体探索の成功率は、大言語モデルにGPT-4を使った場合、シーングラフを視覚観測から生成した場合で64.34%、真値から生成した場合で93.93%だった。