本論文では、線形マルコフ決定過程(MDP)における強化学習のための新しいアルゴリズムCert-LSVI-UCBを提案する。このアルゴリズムは、モデル誤差に頑健であり、エピソード数に依存しない定数レグレット上界を示す。
主な貢献は以下の通り:
Cert-LSVI-UCBは、新しい認証推定量を特徴とする。これにより、多段階の価値関数回帰分析に対する細かな濃縮分析を可能にし、エピソード数に依存しない定数レグレット上界を導出できる。
最小の最適性ギャップ∆に依存する定数レグレット上界e
Opd3H5/∆qを示す。これは、既存の対数レグレット上界e
Opd3H5∆-1 log Kqよりも改善されている。
モデル誤差レベルζが∆/p
?
dH2q以下の場合に、定数レグレット上界を達成できることを示す。これは、モデル誤差に対する頑健性を示している。
認証推定量と新しい分析手法は、独立した興味深い貢献である。
本論文の結果は、強化学習における定数レグレットの達成可能性を示しており、実世界の無限エピソードタスクに対する強化学習エージェントの堅牢性を高める重要な一歩となる。
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Weitong Zhan... : arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10745.pdfDaha Derin Sorular