本研究では、Socratic Plannerと呼ばれる新しい身体的命令追従(EIF)のためのゼロショット計画手法を提案している。Socratic Plannerは3つのコンポーネントから成る:
Socratic Task Decomposer (STD): 自問自答を通じて命令を下位タスクに分解し、それらの順序や対象物などの情報を抽出する。
Task Planner: STDで得られた情報を基に、大言語モデル(LLM)を使ってサブゴールの系列を生成する。
Vision-based Socratic Re-planner (VSR): サブゴールの実行中に失敗が発生した場合、視覚言語モデル(VLM)から得られる詳細な視覚情報に基づいて、LLMにより計画を動的に修正する。
Socratic Plannerは、ラベル付きデータを一切使用せずに、ALFRED ベンチマークにおいて既存の最先端の少数ショット手法と匹敵する性能を達成した。特に、長く複雑なサブゴールの系列を必要とするタスクで大幅な性能向上が見られた。これは、Socratic Plannerの高次元のゼロショット推論能力を示している。
また、新しい高レベル計画評価指標であるRelaxedHLPを提案し、人間評価との整合性が高いことを示した。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問