核心概念
複数の劣化したベースラインポリシーを組み合わせることで、それぞれの長所を活かした優れたポリシーを学習する。
摘要
本研究では、オフラインの強化学習問題を扱う。複数のベースラインポリシーが与えられており、それぞれが状態空間の異なる部分で強い性能を発揮する。目標は、これらのベースラインの最良の組み合わせと同等の性能を持つポリシーを学習することである。
具体的には以下の手順で進める:
- 各状態でベストなベースラインポリシーの軌跡を模倣するアルゴリズム(BC-MAX)を提案する。
- BC-MAXのサンプル複雑度の上界を示し、最適性を証明する。
- コンパイラのインラインポリシー最適化問題に適用し、強力なベースラインを大幅に上回る性能を示す。
- 初期のベースラインポリシーに加えて、前回のBC-MAXの出力を新たなベースラインとして使うことで、少ない環境との相互作用で高性能なポリシーを得られることを示す。
統計資料
各モジュールのバイナリサイズは0.5 MB~2 MBの範囲にある。
最良のベースラインポリシーと比べて、最大20%のバイナリサイズ削減が可能である。
引述
"オフラインでの強化学習では、既存のデータセットを活用し、完全にオンラインでのポリシー更新の要件を緩和することができる。"
"模倣学習は、改善したいポリシーとそのデータを活用することを目的としており、ここで扱う複数のベースラインを持つ特殊な設定は、これまでオンラインの設定でしか研究されていない。"