核心概念
PARTNR 是一個用於評估具身代理在模擬家庭環境中與人類協作完成各種任務能力的基準測試,該測試揭示了當前最先進的語言模型在規劃、協調和從錯誤中恢復方面的顯著局限性,突出了人類與機器人協作領域的重大挑戰。
研究目標
本研究旨在開發一個名為 PARTNR 的基準測試,用於評估具身 AI 代理在模擬室內環境中與人類協作完成一系列家庭活動的能力。
方法
研究人員使用大型語言模型 (LLM) 開發了一個半自動化的任務生成流程,並結合模擬進行驗證。PARTNR 包含 100,000 個自然語言任務,涵蓋 60 個房屋和 5,819 個獨特物件。研究人員使用最先進的 LLM 對 PARTNR 任務進行了分析,評估了它們在規劃、感知和技能執行方面的能力。此外,還進行了真人參與的評估,讓人們單獨完成任務、與人類夥伴合作完成任務,或與 LLM 引導的機器人夥伴合作完成任務。
主要發現
LLM 在協調、任務跟踪以及處理感知和技能錯誤方面存在顯著的局限性。
在非特權條件下,人類能夠解決 93% 的 PARTNR 任務,而當前最先進的 LLM 只能成功完成 30%。
在分散式多代理設置中,由於對合作夥伴動作的跟踪不佳,導致額外動作的產生,任務完成所需步驟比單代理設置多 1.3 倍。
與單獨工作的人相比,人類配對在人機迴路實驗中表現更出色,這凸顯了改進 LLM 協作策略的潛力。
當用規劃數據微調較小的 LLM 時,其性能可與模型大小 9 倍的模型相媲美,同時推理速度提高 8.6 倍。
主要結論
PARTNR 突出了協作型具身代理面臨的重大挑戰,旨在推動該方向的研究。LLM 在規劃、協調和從錯誤中恢復方面存在顯著的局限性,需要進一步的研究來彌合人類與機器人協作方面的差距。
意義
PARTNR 基準測試為評估和比較不同具身 AI 代理在協作環境中的性能提供了一個標準化平台。它揭示了當前 LLM 的局限性,並為未來的研究指明了方向,特別是在協調、任務跟踪和從錯誤中恢復方面。
局限性和未來研究
該研究的一個局限性是依賴於模擬環境。未來的研究可以探索在真實世界環境中評估 PARTNR 任務。此外,探索其他 LLM 架構和訓練方法以提高協作性能將是一件有趣的事情。
統計資料
PARTNR 基準測試包含 100,000 個自然語言任務。
這些任務分佈在 60 個模擬房屋中。
數據集中有 5,819 個獨特的物件。
在非特權條件下,人類的任務成功率為 93%。
在非特權條件下,當前最先進的 LLM 的任務成功率為 30%。
分散式多代理設置比單代理設置需要多 1.3 倍的步驟才能完成任務。
微調後的 8B LLM 模型的性能與 70B LLM 模型相當,同時推理速度提高了 8.6 倍。