Linnk AIをダウンロード
•
AIリサーチアシスタント
>
サインイン
インサイト
-
分布外への計画的な移行
オフラインからオンラインへの強化学習における、分布外への計画的な移行
オフラインデータセットを活用しつつ、オンラインの限られた相互作用の中で最良のパフォーマンスを発揮するポリシーを見つけるため、分布外の状態-行動ペアを積極的に探索することが重要である。
1