本論文では、モデルベースのオフラインリインフォースメントラーニング(MBORL)の課題に取り組むため、保守的なベルマン演算子を提案している。
具体的には以下の通りである:
推定された環境モデルと実際の環境の間のギャップに対処するため、ロバストMDPの概念を導入し、保守的なベルマン演算子を設計した。この演算子は、正確なオフラインデータと不正確なモデルデータのトレードオフを考慮し、性能と頑健性のバランスを取る。
保守的なベルマン演算子の最適化問題を双対問題に変換することで、計算コストを大幅に削減した。これにより、従来のMBORLアルゴリズムと比べて、より効率的に保守的な政策を学習できる。
理論的な分析から、提案手法が任意の政策に対して性能と頑健性の保証を持つことを示した。
実験結果では、提案手法が既存のMBORLアルゴリズムと比べて優れた性能と頑健性を示し、計算コストも大幅に削減できることを確認した。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Xiao-Yin Liu... о arxiv.org 04-18-2024
https://arxiv.org/pdf/2312.03991.pdfГлибші Запити