核心概念
自己修正計画を持つ自律エージェントのゼロショットビジョンアンドランゲージナビゲーションに関する新しいフレームワークであるCorNavが、環境フィードバックを活用して優れたパフォーマンスを発揮します。
要約
複雑な現実世界の環境での自然言語指示の理解と追跡は、一般的な目的のロボットにとって重要な課題です。
CorNavは、環境フィードバックを利用して未来の計画を洗練させ、行動を調整する能力を持つ自律エージェントです。
CorNavは、指示解析、シーン理解、アクションの改善に複数のドメイン専門家を組み込んでいます。
NavBenchという新しいベンチマークでは、GPT-4を活用して様々なタスク向けに高品質な指示を生成し、評価されています。
Introduction
自然言語指示に基づくナビゲーションは重要なスキルであり、実世界のさまざまなタスクで必要です。
大規模言語モデル(LLMs)はナビゲーションタスクに貴重な共通知識を提供しました。
Self-Corrected Planning Mechanism
CorNavは環境フィードバックから計画を修正し、適応性豊かなナビゲーション能力を向上させます。
Domain Experts Consultation
CorNavは指示解析専門家や意思決定専門家と協力して行動改善や情報収集を行います。
Realistic Simulator and NavBench Benchmark
Unreal Engine 5を使用したリアルなシミュレーターとGPT-4による高品質な指示生成が特徴的です。
統計
大規模言語モデル(LLMs)がナビゲーションタスクに貴重な共通知識を提供したことが示されています。
CorNavは平均成功率28.1%であり、最高基準値20.5%よりも優れたパフォーマンスが得られました。