本論文では、エネルギーベースポリシーを柔軟にモデル化するための新しい枠組みを提案している。エネルギーベースポリシーは、最大エントロピー強化学習の最適ポリシーとしても知られており、複雑で多峰性のある行動を表現できる。しかし、連続行動空間でのサンプリングは計算的に困難であった。
本手法では、拡散モデルを用いることで、Q関数を負のエネルギー関数とするボルツマン分布からのサンプリングを行う。具体的には、ノイズを徐々に付与したアクションを、学習したスコア関数を用いて逐次的に脱ノイズすることで、目的の分布からのサンプルを生成する。
提案手法であるDiffusion Q-Sampling (DQS)は、アクター-クリティック型の強化学習アルゴリズムである。DQSは、多峰性のある行動を学習でき、かつ探索-活用のバランスを取ることができる。実験では、迷路ナビゲーションタスクやDeepMind Control Suiteのタスクにおいて、既存手法よりも優れた性能を示している。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Vineet Jain,... um arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01312.pdfTiefere Fragen