核心概念
シミュレーション上での動的パラメータのエントロピー最大化を通じて、現実世界への適応性の高い強化学習政策を自動的に獲得する。
摘要
本論文では、ドメインランダマイゼーション(DR)の課題に対して、新しい手法「DORAEMON」を提案している。
- DRは、シミュレーション上で動的パラメータをランダムに変化させることで、現実世界への適応性を高める手法である。しかし、パラメータの変化幅を適切に設定することが難しい。
- DORAEMONは、動的パラメータの分布のエントロピーを最大化することで、自動的にパラメータの変化幅を広げていく。
- これにより、現実世界の幅広い状況に適応できる強化学習政策を獲得できる。
- 実験では、DORAEMONが既存手法に比べて優れた一般化性能を示すことを確認した。特に、7自由度のロボットアームを用いた物体押し出しタスクでは、現実世界への優れた転移性能を示した。
統計資料
シミュレーション上での成功率が少なくとも90%以上の確率で達成されるように、動的パラメータの分布のエントロピーを最大化している。
シミュレーション上での平均リターンが1400以上、1600以上、1800以上の場合の、それぞれの動的パラメータ分布のエントロピーを最大化している。
引述
「動的パラメータの分布のエントロピーを最大化することで、現実世界への適応性の高い強化学習政策を自動的に獲得できる」
「DORAEMONは、既存手法に比べて優れた一般化性能を示し、特に現実世界への転移性能が高い」