Download Linnk AI
•
Research Assistant
>
Sign In
insight
-
政策誘導型ディフュージョンモデルによる効率的な合成トラジェクトリ生成
オフラインデータを活用した効率的な政策学習手法 - 政策誘導型ディフュージョンモデル
オフラインデータから得られる行動方策と目標方策の分布ずれを解消するため、ディフュージョンモデルを用いて目標方策に沿った合成トラジェクトリを生成し、オフラインRLの性能を大幅に向上させる。
1