本文提出了一種新的神經符號任務規劃管道,旨在解決當前符號規劃器和基於神經網絡語言模型(LLM)的規劃器的局限性。
首先,該管道利用多模態LLM同時處理圖像和文本提示,生成包含環境物體、初始狀態和目標狀態的PDDL問題描述。
其次,該管道利用LLM作為L-Model,將複雜的任務分解為多個子目標,從而減少整體的搜索空間,提高LLM的規劃準確率。
對於每個子目標,該管道根據子目標的複雜度,選擇使用符號規劃器或基於MCTS的LLM規劃器進行規劃。符號規劃器可以精確地解決相對簡單的子目標,而MCTS LLM規劃器則可以處理更加複雜的子目標。
實驗結果表明,與現有的LLM規劃器相比,該管道在不同的公開任務規劃域以及真實和模擬的機器人環境中,顯著減少了規劃時間,同時保持了較高的成功率。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Minseo Kwon,... at arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.19250.pdfDeeper Inquiries