核心概念
提出一種利用大量次優資料訓練通用擴散規劃器,並通過任務導向微調快速適應特定任務的方法。
要約
本文提出了SODP,一種利用次優資料訓練通用擴散規劃器的兩階段框架。
預訓練階段:
- 利用來自多個任務的次優狀態-動作對,訓練一個基礎擴散規劃器,以捕捉多任務軌跡的多樣性分佈。
- 這樣可以獲得通用的規劃能力,而無需依賴於專家示範或任務獎勵標籤。
微調階段:
- 採用基於策略梯度的強化學習方法,利用任務特定獎勵微調預訓練的擴散規劃器。
- 同時引入行為克隆正則化,防止模型在獎勵最大化過程中過度偏離預訓練的能力。
實驗結果表明,SODP在Meta-World和Adroit基準上均優於現有方法,特別是在只有少量任務獎勵數據的情況下,仍能快速適應並獲得高性能。
統計
在Meta-World 50個任務上,SODP的平均成功率為60.56%,較現有最佳方法提高5.9%。
在Adroit 3個任務上,SODP的平均成功率為73.9%,較現有最佳方法提高8.2%。
引用
"我們提出SODP,一種利用次優資料訓練通用擴散規劃器的兩階段框架。"
"預訓練階段可以獲得通用的規劃能力,而無需依賴於專家示範或任務獎勵標籤。"
"微調階段採用基於策略梯度的強化學習方法,同時引入行為克隆正則化,防止模型過度偏離預訓練的能力。"