Conceptos Básicos
本文提出了一種新的模仿學習框架 SMILING,利用擴散模型和分數匹配的優勢,解決了傳統基於對抗網路方法的不穩定性問題,並在理論和實驗上證明了其有效性。
本文介紹了一種名為 SMILING 的新型模仿學習框架,該框架借鑒了擴散模型的優勢,為模仿學習提供了一種更穩定、更易於訓練的方案。
研究背景
傳統的對抗模仿學習方法通常將學習過程視為學習器和對抗損失函數之間的零和博弈,類似於生成對抗網路 (GAN) 的時序版本。然而,GAN 訓練過程存在不穩定和模式崩潰等問題。近年來,擴散模型作為 GAN 的非對抗性替代方案,僅需通過回歸訓練分數函數,即可生成更高質量的樣本。
SMILING 框架
SMILING 框架的核心思想是將狀態擴散,並沿擴散狀態進行分數匹配,以衡量專家和學習器狀態之間的差異。具體而言,該方法首先根據專家狀態分佈擬合一個分數函數。然後,在算法的每次迭代中,通過標準的基於回歸的分數匹配,擬合一個分數函數來描述先前策略混合後的狀態分佈。最後,結合這些分數函數來定義策略搜索步驟的成本函數。
理論分析
理論上,作者證明了 SMILING 框架可以實現一階和二階實例相關的遺憾界,並且在模型存在誤差的情況下,遺憾界隨時間步長呈線性增長。這表明 SMILING 避免了傳統離線模仿學習方法中常見的複合誤差問題。
實驗結果
在實驗方面,作者在 Deepmind Control Suite 和 HumanoidBench 的多個連續控制任務上評估了 SMILING 框架的性能。結果表明,SMILING 在僅使用專家演示狀態信息的情況下,優於基於 GAN 的對抗性模仿學習基準、無判別器模仿學習基準和行為克隆方法,成功解決了多個複雜任務,例如控制人形機器人行走、坐下、爬行和穿越障礙物。
SMILING 框架通過將擴散模型和分數匹配引入模仿學習,提供了一種更穩定、更易於訓練的方案,並在理論和實驗上證明了其有效性。該方法為解決複雜的模仿學習問題提供了新的思路,並具有廣闊的應用前景。