核心概念
本文提出了一種新的 Q 學習演算法,用於在馬可夫決策過程中針對分位數風險度量(如風險價值)進行優化,並提供強大的收斂性和效能保證。
摘要
基於分位數風險度量的 Q 學習:分解、效能與收斂性分析
Jia Lin Hau, Erick Delage, Esther Derman, Mohammad Ghavamzadeh, and Marek Petrik. (2024). Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis. arXiv preprint arXiv:2410.24128.
本研究旨在開發一種新的 Q 學習演算法,用於解決馬可夫決策過程 (MDP) 中基於分位數風險度量(如風險價值 (VaR))的優化問題。