핵심 개념
本文提出了一種名為「從觀察中進行擴散模仿學習」(DIFO)的新型對抗性模仿學習框架,該框架利用條件擴散模型作為鑑別器,從狀態轉移序列中學習策略,並在各種連續控制任務中優於現有方法。
Huang, B.-R., Yang, C.-K., Lai, C.-M., Wu, D.-J., & Sun, S.-H. (2024). Diffusion Imitation from Observation. Advances in Neural Information Processing Systems, 38.
本研究旨在解決從觀察中學習(LfO)的挑戰,特別是在沒有動作標籤的情況下,如何從狀態轉移序列中有效地學習策略。