本論文は、割引無限水平Markov決定過程における方策評価の問題を扱っている。特に、リニア関数近似を用いた2つの代表的な方策評価アルゴリズム、TD学習とTDC学習について分析している。
まず、on-policy設定においてTD学習のサンプル複雑性を解析した。Polyak-Ruppert平均化を用いたTD学習について、高確率下での収束保証を示し、最適な誤差依存性と問題パラメータ依存性を明らかにした。これは従来研究よりも改善された結果である。さらに、minimax下限界を示し、提案した上界の最適性を証明した。
次に、off-policy設定においてTDC学習のサンプル複雑性を解析した。TDC学習の2時間スケールアプローチに着目し、高確率下での収束保証と問題パラメータ依存性を明らかにした。これも従来研究よりも改善された結果である。
全体として、本論文は方策評価アルゴリズムの理論的な理解を深化させ、実践的な応用に向けた重要な知見を提供している。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Gen Li,Weich... om arxiv.org 05-03-2024
https://arxiv.org/pdf/2305.19001.pdfDiepere vragen