核心概念
本稿では、連続的な状態行動空間を持つ平均報酬強化学習問題に対し、状態行動空間を適応的に離散化する新しいアルゴリズムZoRLを提案し、その優れた性能を理論と実験両面から示した。
摘要
メトリック空間における証明可能に適応的な平均報酬強化学習
Kar, A., & Singh, R. (2024). Provably Adaptive Average Reward Reinforcement Learning for Metric Spaces. arXiv preprint arXiv:2410.19919.
本論文は、連続的な状態行動空間を持つ無限期間平均報酬マルコフ決定過程(MDP)において、効率的に学習し、理論的に優れた性能保証を持つ強化学習アルゴリズムを開発することを目的とする。