Core Concepts
オフラインデータセットを活用しつつ、オンラインの限られた相互作用の中で最良のパフォーマンスを発揮するポリシーを見つけるため、分布外の状態-行動ペアを積極的に探索することが重要である。
Abstract
本研究では、オフラインからオンラインへの強化学習(OtO RL)の文脈において、探索の問題に着目している。
まず、内発的報酬と上限信頼区間(UCB)探索について、OtO RLの観点から検討を行った。内発的報酬手法では、オフラインの事前学習の初期化が破壊される可能性があり、UCB手法では、どの学習コンポーネントの不確実性を用いるかが重要となるが明確な指針がない、といった課題が明らかになった。
そこで本研究では、PTGOOD(Planning to Go Out-of-Distribution)と呼ばれる新しい計画的探索手法を提案した。PTGOODは、オフラインデータセットに基づいて推定したポリシーの状態-行動分布を活用し、オンラインの相互作用の中で分布外の高報酬の状態-行動ペアを効率的に探索する。
実験の結果、PTGOODは様々な連続制御タスクにおいて、他の手法と比べて一貫して高いリターンを得られることが示された。また、多くの手法で見られる早期の収束を回避できることも確認された。これらの結果から、OtO RLにおける探索の重要性と、PTGOODのような計画的アプローチの有効性が明らかになった。
Stats
オフラインデータセットを活用することで、オンラインの相互作用回数を大幅に削減できる。
オフラインデータセットが十分でない場合、オンラインの探索が重要となる。
Quotes
"オフラインからオンラインへの(OtO)強化学習のシナリオでは、限られたオンラインの相互作用の中で最良のパフォーマンスを発揮するポリシーを見つけることが目的である。"
"オフラインデータセットが行動ポリシーの全状態-行動空間をカバーしていない場合や、そのポリシー自体が最適でない場合、オンラインでの微調整が有用となる。"