核心概念
提出 GravMAD,一個結合模仿學習的精確性和基礎模型的泛化能力的子目標驅動、語言導引的行動擴散框架。
摘要
本文提出了 GravMAD,一個結合模仿學習和基礎模型優勢的子目標驅動、語言導引的行動擴散框架。
在訓練階段,通過子目標關鍵姿勢發現方法識別出任務的關鍵子目標。在推理階段,利用預訓練的基礎模型直接從語言指令和觀察中識別子目標。
GravMAD 生成基於這些子目標的空間價值圖 (GravMaps),提供靈活的 3D 空間引導。GravMaps 被整合到基於擴散的行動預測架構中,使機器人能夠利用 3D 視覺觀察、任務語言指令和 GravMaps 引導來產生精確的末端執行器姿勢。
實驗結果表明,GravMAD 不僅在訓練過程中遇到的任務上表現出色,在未見任務上也顯著優於最先進的基準方法。
統計資料
"GravMAD 在未見任務上的成功率比最佳基準方法高 28.63%。"
"GravMAD 在訓練過程中遇到的 12 個基礎任務上的平均成功率比最佳基準方法高 13.36%。"
引述
"GravMAD 有效地結合了模仿學習方法的精確操作能力和基礎模型方法的推理和泛化能力。"
"實驗結果表明,GravMAD 不僅在訓練過程中遇到的任務上表現出色,在未見任務上也顯著優於最先進的基準方法。"