本論文は、強化学習(RL)アルゴリズムの一つであるQ学習の収束速度の遅さと過大評価バイアスの問題を解決するために、新しいアルゴリズムを提案している。
まず、従来のSOR Q学習(SORQL)アルゴリズムには2つの主な限界があることが指摘される:
そこで、これらの問題を解決するために、モデルフリーの双方向連続過剰緩和Q学習(DSORQL)アルゴリズムが提案される。理論的および実験的に、このアルゴリズムはSORQLよりも低バイアスであることが示される。さらに、表形式の設定でのこのアルゴリズムの収束性分析が議論される。
提案アルゴリズムは、大規模問題に対応するために深層強化学習(Deep RL)版にも拡張される。深層RL版は、深層Q学習ネットワーク(DQN)とダブルDQNの考え方を取り入れ、SOR手法を組み合わせたものである。
最後に、表形式版の提案アルゴリズムがルーレットとグリッドワールド環境で比較され、深層RL版はMaximization Bias例とOpenAI Gymの環境で評価される。実験結果は、理論的な知見を裏付けるものとなっている。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы