下載 Linnk AI
•
AI 研究助理
>
登入
洞見
-
離線強化學習
離線強化學習的最佳樣本複雜度:基於分配魯棒優化的方法
本文提出了一種基於分配魯棒優化(DRO)的方法,可以有效解決離線強化學習問題,並達到渾然天成的最佳樣本複雜度。
1