本文提出了 GravMAD,一個結合模仿學習和基礎模型優勢的子目標驅動、語言導引的行動擴散框架。
在訓練階段,通過子目標關鍵姿勢發現方法識別出任務的關鍵子目標。在推理階段,利用預訓練的基礎模型直接從語言指令和觀察中識別子目標。
GravMAD 生成基於這些子目標的空間價值圖 (GravMaps),提供靈活的 3D 空間引導。GravMaps 被整合到基於擴散的行動預測架構中,使機器人能夠利用 3D 視覺觀察、任務語言指令和 GravMaps 引導來產生精確的末端執行器姿勢。
實驗結果表明,GravMAD 不僅在訓練過程中遇到的任務上表現出色,在未見任務上也顯著優於最先進的基準方法。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询