핵심 개념
本稿では、標準的でシンプルなモデルベース強化学習(MBRL)の手法である、最尤推定(MLE)による遷移モデルの学習と、学習済みモデル内での楽観的/悲観的プランニングを組み合わせることで、オンラインおよびオフラインのRL設定において、強力なリグレットとサンプル複雑さの限界を達成できることを示しています。
초록
モデルベース強化学習を用いた、地平線自由で二次の優位性を備えた、最小限のアプローチ
本稿は、モデルベース強化学習(MBRL)における、シンプルながらも強力な手法について論じています。
Zhiyong Wang, Dongruo Zhou, John C.S. Lui, and Wen Sun. (2024). Model-based RL as a Minimalist Approach to Horizon-Free and Second-Order Bounds. arXiv preprint arXiv:2408.08994v3.
本研究は、オンラインおよびオフラインの強化学習設定において、標準的でシンプルなモデルベース強化学習(MBRL)の手法が、強力なリグレットとサンプル複雑さの限界を達成できることを示すことを目的としています。