核心概念
逆順カリキュラムと順方向カリキュラムを組み合わせることで、少数の実演データを用いて複雑なタスクを効率的に学習できる。
要約
本論文では、逆順カリキュラムと順方向カリキュラムを組み合わせた新しい強化学習アルゴリズム「RFCL」を提案している。
逆順カリキュラムでは、実演データの初期状態から逆方向にカリキュラムを構築し、狭い初期状態分布でタスクを解くことができる初期的な方策を学習する。その後、順方向カリキュラムを用いて、この初期的な方策を徐々に拡張し、広い初期状態分布でタスクを解けるようにする。
この2段階のカリキュラム学習により、少数の実演データでも高い効率で複雑なタスクを解くことができる。実験では、従来手法と比べて大幅な実演データと学習サンプル数の削減を実現している。特に、従来手法では解けなかった高精度な操作を要するタスクも解くことができる。
統計
1M サンプルと5つの実演データで、Adroit環境のタスクを65.7%の成功率で解くことができる。
1M サンプルと5つの実演データで、MetaWorld環境のタスクを95.2%の成功率で解くことができる。
2M サンプルと5つの実演データで、ManiSkill2環境のタスクを70.5%の成功率で解くことができる。
10M サンプルと10つの実演データで、PlugCharger環境のタスクを39.4%の成功率で解くことができる。
引用
"逆順カリキュラムと順方向カリキュラムを組み合わせることで、少数の実演データを用いて複雑なタスクを効率的に学習できる。"
"特に、従来手法では解けなかった高精度な操作を要するタスクも解くことができる。"