Keskeiset käsitteet
本文提出了一種名為均方雙冪變異誤差 (MSBVE) 的新演算法,用於解決在具有跳躍的連續時間設定下估計值函數的挑戰,特別是在狀態動態由具有跳躍分量的隨機微分方程 (SDE) 控制的情況下。
摘要
這篇研究論文提出了一種新的強化學習演算法,稱為均方雙冪變異誤差 (MSBVE),用於在具有跳躍的連續時間設定下估計值函數。該演算法旨在解決狀態動態由具有跳躍分量的隨機微分方程 (SDE) 控制的情況。
現有方法的局限性
傳統的均方時序差分誤差 (MSTDE) 演算法在處理狀態動態中的跳躍時存在局限性。這是因為 MSTDE 對跳躍過程很敏感,這會導致在存在顯著隨機噪聲和跳躍的情況下出現不穩定和收斂問題。
提出的 MSBVE 演算法
MSBVE 演算法通過最小化均方二次變異誤差來解決 MSTDE 的局限性。通過關注二次變異誤差,MSBVE 對狀態動態中的隨機噪聲和跳躍過程具有更強的魯棒性。
模擬結果
模擬實驗和形式證明驗證了 MSBVE 演算法在估計具有顯著變異性和跳躍的複雜設定下的值函數方面的有效性。結果表明,MSBVE 演算法優於 MSTDE 演算法,尤其是在以具有跳躍的顯著隨機噪聲為特徵的情況下,而 MSTDE 演算法難以收斂。
結論
這些發現強調了考慮替代誤差度量(例如均方二次變異誤差)的重要性,以增強在連續時間框架中運行的強化學習演算法的性能和彈性。 MSBVE 演算法為在具有跳躍的連續時間設定下估計值函數提供了一種魯棒且有效的解決方案,為強化學習在各種應用中的進一步進展鋪平了道路。
Tilastot
時間網格大小設定為 ∆t = 0.0005。
學習率 α 設定為 ∆t。
θ 的初始值 θ0 設定為 -1。