本稿では、オフラインポリシーとオンラインポリシーのそれぞれをexploitationとexplorationに特化させ、モードスイッチングコントローラによって切り替えることで、オフラインtoオンライン強化学習におけるデータ効率とパフォーマンスを向上させる新しい手法を提案する。
オフラインtoオンラインマルチエージェント強化学習(O2O MARL)における、オフライン学習で得た知識の活用と効率的なオンライン探索のバランスを両立させる手法を提案する。
オフラインモデルガイダンスを用いた状態行動認識型オフラインtoオンライン強化学習(SAMG)は、オフラインデータセットへの依存を取り除き、オンラインサンプルの利用効率を100%にすることで、オフラインで事前学習したモデルのオンライン微調整におけるパフォーマンスを向上させる。