下載 Linnk AI
•
AI 研究助理
>
登入
洞見
-
分布外への計画的な移行
オフラインからオンラインへの強化学習における、分布外への計画的な移行
オフラインデータセットを活用しつつ、オンラインの限られた相互作用の中で最良のパフォーマンスを発揮するポリシーを見つけるため、分布外の状態-行動ペアを積極的に探索することが重要である。
1