這篇文章是研究論文,發表於 NeurIPS 2024。
逆向優化 (IO) 是一種從過去的數據集中學習專家決策者未知目標函數的框架。現有的數據驅動 IO 方法通常基於線性函數類別來學習前向優化問題 (FOP) 的目標函數,這可能會過於簡化問題並導致次優解。為了提高數據驅動 IO 問題的表達能力,內核方法被引入,允許探索更廣泛的優化問題類別,從而增強模型從觀察到的決策推廣到未見情況的能力。
本文提出了一種基於次優性損失的新型內核逆向優化 (KIO) 模型。該方法利用內核方法使 IO 模型能夠在無限維特徵空間上運行,從而使 KIO 能夠在低數據狀態下在復雜的連續控制任務上優於現有的模仿學習 (IL) 算法。為了解決與所提出的 KIO 模型相關的二次計算複雜性,本文引入了受坐標下降樣式更新啟發的序列選擇優化 (SSO) 算法。該算法有選擇地優化決策變量的組成部分,在可證明地收斂到所提出的 KIO 模型的相同解的同時,極大地提高了效率和可擴展性。
在 D4RL 基準測試的 MuJoCo 連續控制數據集上進行的實驗結果表明,KIO 在四分之六的任務中取得了具有競爭力的成績,其得分接近或超過了教師代理的得分,表明在復雜的控制任務中具有很強的學習能力。相比之下,沒有內核方法的 IO 模型表現出較弱的學習能力。此外,SSO 算法在有限的迭代次數內快速收斂到最優解。
翻譯成其他語言
從原文內容
arxiv.org
深入探究