本文提出了一種基於自回歸專家混合模型的模仿學習方法,該方法可以僅從狀態軌跡中學習控制策略,並通過引入李雅普諾夫穩定性約束來確保模型的穩定性,適用於多步預測任務。
本文提出了一種名為 TemporalOT 的新方法,透過將時間資訊整合到現有的基於最優傳輸 (OT) 的代理獎勵中,來解決機器人策略學習中的問題,特別是在只有少量專家示範的情況下。
本文提出了一種名為 MAAD 的新型模仿學習方法,該方法利用逆動力學模型來推斷專家行為中 plausible 的動作分佈,並透過將學習策略與該分佈對齊來提升模仿學習的效率。
本文提出了一種新的模仿學習框架 SMILING,利用擴散模型和分數匹配的優勢,解決了傳統基於對抗網路方法的不穩定性問題,並在理論和實驗上證明了其有效性。
本文提出了一種名為 KOAP 的新方法,透過結合決策擴散器和基於庫普曼算子的逆模型學習,有效地利用觀察數據來解決動作數據有限情況下的模仿學習問題。
本文提出了一種名為「從觀察中進行擴散模仿學習」(DIFO)的新型對抗性模仿學習框架,該框架利用條件擴散模型作為鑑別器,從狀態轉移序列中學習策略,並在各種連續控制任務中優於現有方法。
本文提出了一種名為 OOPS 的新型模仿學習方法,該方法利用最佳傳輸中的 Sinkhorn 距離來計算學習者軌跡與專家軌跡之間的狀態轉移距離,並將其轉化為獎勵函數,從而指導學習者在沒有明確動作標籤的情況下模仿專家行為。
從單一 gait cycle 的專家示範中學習潛在動作先驗,可以顯著提升深度強化學習在機器人模仿學習任務中的表現,包括學習速度、最終獎勵,以及遷移到不同任務的能力。