Li, L.-F., Zhao, P., & Zhou, Z.-H. (2024). Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs. Advances in Neural Information Processing Systems, 38.
本研究旨在設計一種演算法,用於解決具有未知轉移和對抗性獎勵的線性混合馬可夫決策過程 (MDP) 問題,並實現近似最優的動態遺憾值。
本文提出了一種名為「基於佔用度量優化與基於策略估計」(OOPE) 的新型演算法。該演算法結合了兩種主要方法的優點:(1) 基於佔用度量的全局優化,採用雙層框架來處理環境的非平穩性;(2) 基於策略的值目標回歸,用於處理未知的轉移。通過將佔用度量轉換為策略,該演算法有效地將基於佔用度量的近似誤差轉換為基於策略的估計誤差。
OOPE 演算法為解決具有未知轉移和對抗性獎勵的線性混合 MDP 問題提供了一種有效且理論上可靠的方法。其近似最優的動態遺憾值使其成為處理非平穩環境的強大工具。
本研究推動了對抗性線性混合 MDP 領域的研究,為設計能夠適應動態和不確定環境的強化學習演算法提供了新的見解。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Long-Fei Li,... ที่ arxiv.org 11-06-2024
https://arxiv.org/pdf/2411.03107.pdfสอบถามเพิ่มเติม