本文研究了離線強化學習(RL)的情況,即政策訓練和部署環境不同。為了處理這種環境擾動,我們專注於在分佈式健壯馬爾可夫決策過程(DRMDP)框架下學習對轉移動力學不確定性健壯的策略,其中名義和擾動動力學是線性馬爾可夫決策過程。
我們提出了一種新的算法We-DRIVE-U,它具有平均次最優性e
O(dH·min{1/ρ, H}/
√
K),其中K是情節數,H是時域長度,d是特徵維度,ρ是不確定性水平。這一結果比現有最佳算法改善了e
O(dH/min{1/ρ, H})。我們還構建了一個新的困難實例,並導出了這一設置的第一個信息論下界,表明我們的算法在任意不確定性水平ρ∈(0, 1]下都是近乎最優的,最多只差O(
√
H)。
我們的算法還具有'稀疏切換'設計,因此只需要O(dH log(1 + H2K))次策略切換和O(d2H log(1 + H2K))次調用oracle來解決雙重優化問題,這大大提高了現有DRMDP算法的計算效率,其策略切換和oracle複雜度都是O(K)。
翻譯成其他語言
從原文內容
arxiv.org
深入探究