本研究では、オフラインからオンラインへの強化学習(OtO RL)の文脈において、探索の問題に着目している。
まず、内発的報酬と上限信頼区間(UCB)探索について、OtO RLの観点から検討を行った。内発的報酬手法では、オフラインの事前学習の初期化が破壊される可能性があり、UCB手法では、どの学習コンポーネントの不確実性を用いるかが重要となるが明確な指針がない、といった課題が明らかになった。
そこで本研究では、PTGOOD(Planning to Go Out-of-Distribution)と呼ばれる新しい計画的探索手法を提案した。PTGOODは、オフラインデータセットに基づいて推定したポリシーの状態-行動分布を活用し、オンラインの相互作用の中で分布外の高報酬の状態-行動ペアを効率的に探索する。
実験の結果、PTGOODは様々な連続制御タスクにおいて、他の手法と比べて一貫して高いリターンを得られることが示された。また、多くの手法で見られる早期の収束を回避できることも確認された。これらの結果から、OtO RLにおける探索の重要性と、PTGOODのような計画的アプローチの有効性が明らかになった。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문