核心概念
デモンストレーション主導の自動カリキュラム強化学習手法であるDemoStartを提案し、シミュレーション上で複雑な操作行動を学習し、実世界への零細転移を実現した。
摘要
本研究では、デモンストレーション主導の自動カリキュラム強化学習手法であるDemoStartを提案した。DemoStartは、シミュレーション上で少数のデモンストレーションと疎報酬を用いて、複雑な操作行動を学習することができる。
具体的には以下の3つの特徴がある:
- デモンストレーションから得られる状態を用いて、徐々に難易度の高い課題に取り組むカリキュラムを自動的に生成する。
- 現在の方策の性能に応じて、有効な訓練信号を持つ課題を選択する"ゼロ分散フィルタリング"を導入する。
- デモンストレーションの初期状態から徐々に離れていくことで、デモンストレーションの影響を最小限に抑える。
DemoStartを用いて、シミュレーション上で7自由度の腕と12自由度の多指ハンドを持つロボットに対して、プラグの持ち上げ・挿入、立方体の再配置、ナットとボルトのねじ込み、スクリュードライバーをカップに挿入するなどの複雑な操作課題を98%以上の成功率で解くことができた。
さらに、プラグの持ち上げ・挿入、立方体の再配置の課題について、シミュレーションから実世界への零細転移を実現し、97%、64%、97%の成功率を達成した。これは、デモンストレーションから直接学習した方策や、単純な強化学習ベースラインよりも優れた性能を示している。
統計資料
プラグ挿入課題において、DemoStartは99.6%の成功率を達成した。
プラグ持ち上げ課題において、DemoStartは99.7%の成功率を達成した。
立方体再配置課題において、DemoStartは99.9%の成功率を達成した。
ナットとボルトのねじ込み課題において、DemoStartは99.8%の成功率を達成した。
スクリュードライバーをカップに挿入する課題において、DemoStartは98.6%の成功率を達成した。
引述
"DemoStartは、シミュレーション上で少数のデモンストレーションと疎報酬を用いて、複雑な操作行動を学習することができる。"
"DemoStartを用いて、シミュレーション上で98%以上の成功率で複雑な操作課題を解くことができた。"
"DemoStartは、シミュレーションから実世界への零細転移を実現し、97%、64%、97%の成功率を達成した。"