本研究では、重尾の報酬を持つ強化学習に対する効率的なアルゴリズムを提案します。HEAVY-OFULとHEAVY-LSVI-UCBは、自己正規化集中不等式を用いた適応的Huber回帰に基づいています。これらのアルゴリズムは、重尾の報酬を効率的に扱うための革新的な手法を提供します。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jiayi Huang,... alle arxiv.org 03-08-2024
https://arxiv.org/pdf/2306.06836.pdfDomande più approfondite