Core Concepts
本論文では、モンテカルロ批判家の ensemble を用いた探索ガイダンスモジュールを提案し、これを組み込んだ新しい強化学習アルゴリズムMOCCOを紹介する。提案手法は、従来の無作為探索手法に比べて優れた性能を示す。
Abstract
本論文では、強化学習における探索の課題に取り組んでいる。従来の強化学習アルゴリズムでは、ガウス分布やオーナスタイン・ウーレンベック過程に基づく無作為探索手法が用いられているが、これらには以下のような問題点がある:
高次元環境では、特定の状態空間領域に到達するのが非効率的
探索の程度が学習の全過程で一定であり、最適化の初期段階と後期段階で同じ探索量を適用するのは適切ではない
行動ベクトルの各要素に一様な探索量を適用するが、連続制御問題では各要素の重要度が異なる
そこで本論文では、モンテカルロ批判家の ensemble を用いた探索ガイダンスモジュールを提案している。このモジュールは、状態-行動ペアに対する予測値の分散を最小化するように学習され、探索の方向性と程度を動的に調整する。
提案手法を組み込んだ新しい強化学習アルゴリズムMOCCOでは、探索ガイダンスモジュールを行動選択時に活用するだけでなく、批判家の最適化にも利用している。これにより、Q値の過大評価を抑制することができる。
実験の結果、提案手法は従来の強化学習アルゴリズムに比べて優れた性能を示すことが確認された。特に、アクロボット、振り子、ホッパーなどの課題で顕著な改善が見られた。
Stats
従来のTD3アルゴリズムにガウス雑音を加えない場合の方が、ガウス雑音を加えた場合よりも高い平均エピソード報酬を得られる
提案手法MOCCOは、他の強化学習アルゴリズムと比べて高い平均エピソード報酬を達成する
Quotes
"現在のアプローチでは一般的にランダムノイズを探索手法として利用しているが、これには幾つかの欠点がある。"
"我々は新しいガイド探索手法を提案し、これを用いて探索の動的な調整を行う。"
"提案手法は従来の強化学習アルゴリズムと比較して優れた性能を示す。"