Core Concepts
本文提出了一種名為 OOPS 的新型模仿學習方法,該方法利用最佳傳輸中的 Sinkhorn 距離來計算學習者軌跡與專家軌跡之間的狀態轉移距離,並將其轉化為獎勵函數,從而指導學習者在沒有明確動作標籤的情況下模仿專家行為。
文獻資訊: Chang, W.-D., Fujimoto, S., Meger, D., & Dudek, G. (2024). Imitation Learning from Observation through Optimal Transport. Proceedings of the Robotics: Science and Systems.
研究目標: 本文旨在解決從觀察中進行模仿學習 (ILfO) 的問題,即在沒有明確動作標籤的情況下,僅通過觀察專家的狀態軌跡來學習專家的行為策略。
方法: 本文提出了一種名為「觀察性離線 Sinkhorn」(OOPS) 的新方法,該方法利用最佳傳輸 (OT) 中的 Sinkhorn 距離來量化學習者與專家狀態轉移軌跡之間的差異。具體而言,OOPS 將學習者和專家的狀態轉移序列視為兩個離散分佈,並使用 Sinkhorn 距離計算它們之間的 Wasserstein 距離。通過最小化 Wasserstein 距離,OOPS 可以有效地將專家的狀態轉移模式遷移到學習者身上。
主要發現:
OOPS 在多個 MuJoCo 運動基準環境和機器人任務中,相較於現有的 ILfO 方法(如 f-IRL 和 OPOLO)以及基於 Wasserstein 距離的 IL 方法(如 PWIL 和 SIL),都展現出顯著的性能提升。
OOPS 僅需單一專家軌跡即可達到接近專家的性能,並且在不同隨機種子上的表現具有較低的變異性,顯示出其高樣本效率和穩定性。
實驗結果表明,OOPS 所使用的 Sinkhorn 距離相較於其他 Wasserstein 距離的近似方法(如 PWIL 中使用的貪婪匹配方法)能夠提供更緊密的 Wasserstein 距離上界,從而更有效地指導學習過程。
主要結論: OOPS 為 ILfO 提供了一種簡單而有效的方法,其基於最佳傳輸的獎勵函數設計有效地解決了傳統 ILfO 方法在處理學習者與專家軌跡差異方面的不足。實驗結果證明了 OOPS 在各種任務上的優越性能,顯示出其在實際應用中的巨大潛力。
論文貢獻:
提出了一種基於最佳傳輸的 ILfO 新方法 OOPS。
證明了 OOPS 在多個基準環境和機器人任務中優於現有 ILfO 方法。
驗證了 Sinkhorn 距離在近似 Wasserstein 距離方面的有效性,並分析了不同 Wasserstein 距離近似方法對性能的影響。
研究限制和未來方向:
本文主要關注於狀態空間的匹配,未來可以探索將動作資訊納入最佳傳輸框架以進一步提升性能。
未來可以研究如何將 OOPS 應用於更複雜的真實世界任務,例如機器人操作和自動駕駛。
Stats
OOPS+TD3 在使用 10 條專家軌跡訓練時,在 Hopper、HalfCheetah 和 Ant 環境中達到了最低的狀態-動作 Wasserstein 距離。
在 Hopper 環境中,當 Sinkhorn 距離的正則化參數 λ 小於 0.4 時,OOPS+TD3 的性能優於使用貪婪匹配方法計算 Wasserstein 距離的 PWIL。
在 Walker2d 環境中,儘管 OOPS+TD3 在任務獎勵方面表現更佳,但 PWIL–(s) 在狀態-動作 Wasserstein 距離方面更接近專家軌跡。