核心概念
拡散モデルは表現学習の観点から活用することで、従来のサンプリングベースの手法よりも効率的に強化学習における価値関数の表現学習と効率的なプランニングを実現できる。
本論文は、強化学習(RL)における拡散モデルの新たな活用法を提案する。拡散モデルは複雑なデータ分布を表現できるため、近年RLへの応用が進んでいる。しかし、従来の拡散モデルベースのRL手法は、サンプリングに膨大な計算コストがかかるという課題があった。本論文では、拡散モデルを表現学習の観点から捉え直し、新たなアルゴリズムフレームワークである拡散スペクトル表現(Diff-SR)を提案する。
拡散モデルとエネルギーベースモデルの関連性を利用し、マルコフ決定過程(MDP)や部分観測マルコフ決定過程(POMDP)における価値関数の表現学習を可能にする。
拡散モデルからのサンプリングを必要としないため、従来手法の計算コストを回避できる。
効率的なプランニングと探索を可能にする。