本論文では、オフラインRLにおける課題である行動方策と目標方策の分布ずれを解消するため、政策誘導型ディフュージョンモデル(PGD)を提案している。
まず、オフラインデータからトラジェクトリレベルのディフュージョンモデルを学習し、行動分布を表現する。次に、目標方策の情報を用いて、ディフューズ過程を目標方策に誘導することで、行動分布と目標分布のバランスを取った合成トラジェクトリを生成する。
これにより、従来のオートリグレッシブな世界モデルに比べ、長期の動的誤差が小さく、かつ目標方策の高い尤度を持つ合成トラジェクトリを生成できる。
実験では、MuJoCo環境やMaze2d環境において、PGDで生成した合成データを用いてTD3+BCやIQLを学習すると、実データや非誘導ディフュージョンデータを用いる場合に比べ、有意な性能向上が確認された。また、PGDは目標方策の尤度が高く、かつ動的誤差が小さい合成トラジェクトリを生成できることを示した。
翻譯成其他語言
從原文內容
arxiv.org
深入探究