核心概念
本文提出了一種名為 EmbodiedRAG 的新型機器人任務規劃框架,該框架利用動態三維場景圖檢索技術,有效地為基於大型語言模型 (LLM) 的規劃器提供任務相關資訊,從而提高規劃效率和可擴展性。
導言
近年來,大型語言模型 (LLM) 與三維場景圖 (3DSG) 技術的進步,為機器人在複雜、開放環境中的任務規劃和執行帶來了新的可能性。3DSG 作為一種緊湊且語義豐富的環境表示方法,為基於 LLM 的規劃器提供了良好的基礎。然而,隨著機器人環境規模的擴大和場景圖資訊複雜性的增加,將完整的 3DSG 直接輸入 LLM 規劃器會面臨輸入長度限制和注意力偏差等問題,導致規劃效率低下。
EmbodiedRAG 框架
受檢索增強生成 (RAG) 方法在問答系統中成功應用的啟發,本文提出了一種適用於機器人領域的三維場景子圖檢索框架 EmbodiedRAG。該框架的主要目標是從機器人的 3DSG 中檢索與當前任務相關的子圖,並將其提供給 LLM 規劃器,以提高規劃效率和準確性。
主要組成部分
EmbodiedRAG 框架主要包含以下幾個關鍵組成部分:
三維場景圖的文檔索引: 將 3DSG 中的每個實體視為一個文檔,並將其嵌入到向量空間中,以便於後續檢索。
基於 LLM 的預檢索抽象: 在規劃開始之前,利用 LLM 生成與任務相關的實體和屬性列表,作為預檢索的依據。
子圖定位與檢索: 根據預檢索的結果,從 3DSG 中檢索與任務相關的實體和邊,並構建子圖。
規劃生成: 利用 ReAct 風格的 LLM 代理,根據歷史動作、觀察結果和當前子圖生成機器人動作。
回饋機制: 利用機器人的動作和 LLM 代理的思考結果,動態更新子圖,以適應環境變化和任務需求。
優點與貢獻
EmbodiedRAG 框架具有以下優點:
顯著減少輸入長度: 通過僅提供任務相關的子圖,有效降低了 LLM 規劃器的輸入長度,提高了規劃效率。
適應動態環境: 子圖會根據環境變化和任務需求進行動態更新,使機器人能夠適應複雜多變的環境。
與 3DSG 格式無關: EmbodiedRAG 框架不依賴於特定的 3DSG 格式,具有良好的通用性。
實驗結果
在 AI2Thor 模擬環境和真實機器人平台上的實驗結果表明,EmbodiedRAG 框架能夠顯著減少輸入長度和規劃時間,同時提高規劃成功率。
總結
EmbodiedRAG 框架為解決 LLM 在機器人任務規劃中的可擴展性問題提供了一種有效途徑。通過動態檢索任務相關的子圖,該框架能夠顯著提高規劃效率和準確性,為機器人在複雜、開放環境中的應用奠定了基礎。
统计
在模擬實驗中,與使用完整 3DSG 的方法相比,EmbodiedRAG 的輸入標記數量減少了 90%,平均規劃步驟時間減少了 70%。
在真實機器人實驗中,與使用完整 3DSG 的方法相比,EmbodiedRAG 在大型環境中表現出更強的魯棒性,並且沒有出現幻覺現象。