本論文では、エネルギーベースポリシーを柔軟にモデル化するための新しい枠組みを提案している。エネルギーベースポリシーは、最大エントロピー強化学習の最適ポリシーとしても知られており、複雑で多峰性のある行動を表現できる。しかし、連続行動空間でのサンプリングは計算的に困難であった。
本手法では、拡散モデルを用いることで、Q関数を負のエネルギー関数とするボルツマン分布からのサンプリングを行う。具体的には、ノイズを徐々に付与したアクションを、学習したスコア関数を用いて逐次的に脱ノイズすることで、目的の分布からのサンプルを生成する。
提案手法であるDiffusion Q-Sampling (DQS)は、アクター-クリティック型の強化学習アルゴリズムである。DQSは、多峰性のある行動を学習でき、かつ探索-活用のバランスを取ることができる。実験では、迷路ナビゲーションタスクやDeepMind Control Suiteのタスクにおいて、既存手法よりも優れた性能を示している。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询