本研究では、大規模言語モデル(LLM)を用いて、ロボット操作タスクの高レベルな計画と低レベルな制御を行う手法LLM+Aを提案する。
LLM+Aは以下の2つの主要な構成要素から成る:
観察記述子: 視覚言語モデル(VLM)を用いて、現在の環境の観察記述を生成する。
サブタスク計画器と動作制御器: LLMを用いて、高レベルなサブタスク計画と低レベルな動作制御を行う。
従来のLLMベースのアプローチでは、物理的な実行可能性を考慮できないため、生成された計画や制御が現実世界で実行できない問題があった。
LLM+Aでは、アフォーダンス・プロンプティングを導入することで、LLMに物理的な影響や物体の機能性を理解させ、実行可能な計画と制御を生成できるようにする。
具体的には、LLMに以下の2つのことを促す:
これにより、LLMは物理的な実行可能性を考慮した計画と制御を生成できるようになる。
実験の結果、LLM+Aは従来手法と比べて、様々な言語条件付きロボット操作タスクにおいて高い成功率を示した。また、アフォーダンス予測の精度も高く、異種のタスクにも適用可能であることが確認された。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문