本論文では、連続分布を使用したアクター・クリティック強化学習アルゴリズムであるCTD4を提案している。従来の強化学習アプローチでは、期待値Qπ(s, a)を学習していたが、本手法では、状態行動ペアの戻り値の完全な分布Zπ(s, a)を学習する。
CTD4の主な特徴は以下の通り:
実験では、DeepMind Control Suiteの10種類の連続制御タスクにおいて、提案手法がTD3を上回る性能を示した。特に、スパース報酬や高次元の制御を必要とするタスクで優位性が確認された。一方で、一部のタスクではTD3に劣る結果も得られており、今後の改善の余地がある。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by David Valenc... kl. arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.02576.pdfDybere Forespørgsler