Download Linnk AI
•
Forskningsassistent
>
Log på
indsigt
-
政策誘導型ディフュージョンモデルによる効率的な合成トラジェクトリ生成
オフラインデータを活用した効率的な政策学習手法 - 政策誘導型ディフュージョンモデル
オフラインデータから得られる行動方策と目標方策の分布ずれを解消するため、ディフュージョンモデルを用いて目標方策に沿った合成トラジェクトリを生成し、オフラインRLの性能を大幅に向上させる。
1