核心概念
連続分布を使用したアクター・クリティック強化学習アルゴリズムを提案し、複数のクリティックのカルマンフュージョンによって過大評価バイアスを軽減する。
要約
本論文では、連続分布を使用したアクター・クリティック強化学習アルゴリズムであるCTD4を提案している。従来の強化学習アプローチでは、期待値Qπ(s, a)を学習していたが、本手法では、状態行動ペアの戻り値の完全な分布Zπ(s, a)を学習する。
CTD4の主な特徴は以下の通り:
- 連続分布を使用することで、カテゴリカル分布に特有の課題(ディスジョイントサポート、ハイパーパラメータ調整の必要性など)を回避している。
- 複数のクリティックネットワークを統合し、カルマンフュージョンを用いて過大評価バイアスを軽減している。
- 探索のための行動ノイズを徐々に減少させることで、学習の安定性を高めている。
実験では、DeepMind Control Suiteの10種類の連続制御タスクにおいて、提案手法がTD3を上回る性能を示した。特に、スパース報酬や高次元の制御を必要とするタスクで優位性が確認された。一方で、一部のタスクではTD3に劣る結果も得られており、今後の改善の余地がある。
統計
連続分布を使用することで、カテゴリカル分布に特有の課題を回避できる。
複数のクリティックネットワークを統合することで、過大評価バイアスを軽減できる。
探索のための行動ノイズを徐々に減少させることで、学習の安定性を高められる。
引用
「連続分布を使用したアクター・クリティック強化学習アルゴリズムを提案し、複数のクリティックのカルマンフュージョンによって過大評価バイアスを軽減する。」
「実験では、DeepMind Control Suiteの10種類の連続制御タスクにおいて、提案手法がTD3を上回る性能を示した。」