核心概念
Developing efficient algorithms for reinforcement learning with heavy-tailed rewards using linear function approximation.
要約
本研究では、重尾の報酬を持つ強化学習に対する効率的なアルゴリズムを提案します。HEAVY-OFULとHEAVY-LSVI-UCBは、自己正規化集中不等式を用いた適応的Huber回帰に基づいています。これらのアルゴリズムは、重尾の報酬を効率的に扱うための革新的な手法を提供します。
統計
HEAVY-OFUL achieves an instance-dependent T-round regret of eO(dT1−ϵ2(1+ϵ)qPTt=1 ν2t + dT1−ϵ2(1+ϵ)).
HEAVY-LSVI-UCB achieves a K-episode regret of eO(d√HU∗K11+ϵ + d√HV∗K).
引用
"We address the challenge of such rewards in RL with linear function approximation."
"Our result is achieved via a novel robust self-normalized concentration inequality."