核心概念
本文提出了兩種基於多項邏輯函數逼近的強化學習隨機探索演算法:RRL-MNL 和 ORRL-MNL,並證明了它們在理論和實踐中的有效性。
摘要
論文資訊
- 標題: 基於多項邏輯函數逼近強化學習的隨機探索演算法
- 作者: Wooseong Cho, Taehyun Hwang, Joongkyu Lee, Min-hwan Oh
- 會議: NeurIPS 2024
研究目標
本研究旨在解決強化學習中使用多項邏輯函數逼近時的探索與利用困境,並提出具有理論保證且計算效率高的隨機探索演算法。
方法
- RRL-MNL: 採用樂觀取樣技術,確保估計值函數具有足夠的樂觀性,並利用線上參數估計方法來更新轉移核心。
- ORRL-MNL: 在 RRL-MNL 的基礎上,利用多項邏輯轉移模型的局部梯度信息來構建樂觀隨機值函數,以提高對問題相關常數 κ 的依賴性。
主要發現
- RRL-MNL 算法的累積遺憾上限為 e
O(κ−1d
3
2 H
3
2 √
T),其中 d 是轉移核心的維度,H 是時間範圍長度,T 是總步數,κ 是問題相關常數。
- ORRL-MNL 算法的累積遺憾上限為 e
O(d
3
2 H
3
2 √
T + κ−1d2H2),顯著改善了 RRL-MNL 對 κ 的依賴性。
- 實驗結果表明,與現有的 MNL-MDP 演算法相比,所提出的演算法在計算效率和統計效率方面均具有優勢。
主要結論
本研究提出的 RRL-MNL 和 ORRL-MNL 演算法是首批針對 MNL-MDP 的隨機模型強化學習演算法,它們在理論上具有可證明的遺憾上限,並且在實踐中表現出優異的性能。
意義
本研究為 MNL-MDP 的探索與利用問題提供了新的解決方案,並為設計更有效率的強化學習演算法提供了理論依據。
局限性和未來研究方向
- 未來可以進一步研究如何放鬆對獎勵函數已知的假設。
- 可以探索將所提出的演算法應用於更複雜的實際問題中。
統計資料
RRL-MNL 算法的累積遺憾上限為 e
O(κ−1d
3
2 H
3
2 √
T),其中 d 是轉移核心的維度,H 是時間範圍長度,T 是總步數,κ 是問題相關常數。
ORRL-MNL 算法的累積遺憾上限為 e
O(d
3
2 H
3
2 √
T + κ−1d2H2)。
引述
Can we design a provably efficient and tractable randomized algorithm for RL with MNL function approximation?