本研究では、重尾の報酬を持つ強化学習に対する効率的なアルゴリズムを提案します。HEAVY-OFULとHEAVY-LSVI-UCBは、自己正規化集中不等式を用いた適応的Huber回帰に基づいています。これらのアルゴリズムは、重尾の報酬を効率的に扱うための革新的な手法を提供します。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Jiayi Huang,... às arxiv.org 03-08-2024
https://arxiv.org/pdf/2306.06836.pdfPerguntas Mais Profundas