Основні поняття
ディープ強化学習を用いて、低コストの二足歩行ロボットが動的で安定した動作スキルを習得し、複雑な戦略行動を発現することを示した。
Анотація
本研究では、ディープ強化学習を用いて、低コストの小型二足歩行ロボットに、サッカーの1対1ゲームを行うための高度な動作スキルを習得させた。
- ロボットは、立ち上がり、歩行、旋回、キックなどの動作を滑らかに組み合わせ、状況に応じて適応的に使い分けることができるようになった。
- ボールの予測や相手の動きの予測、状況に応じた最適な動作の選択など、戦略的な理解も身につけた。
- シミュレーション上で訓練したポリシーを、ハードウェアに直接転用することができ、現実のロボットでも高い性能を発揮した。
- ドメインランダマイゼーションや擾乱の導入などにより、低コストのロボットでも安全かつ効果的な動作を学習できることを示した。
- 事前に個別に訓練したスキルを組み合わせる方式が、エマージェントな行動の発現と、シミュレーションからの転用性の向上に有効であった。
Статистика
ロボットの歩行速度は、スクリプトベースラインの181%まで向上した。
ロボットの旋回速度は、スクリプトベースラインの302%まで向上した。
ロボットの立ち上がり時間は、スクリプトベースラインの63%まで短縮された。
ロボットのキック速度は、スクリプトベースラインと同等の性能を発揮し、さらにランアップを加えることで34%高速化された。
Цитати
"ディープ強化学習を用いて、低コストの小型二足歩行ロボットに、サッカーの1対1ゲームを行うための高度な動作スキルを習得させた。"
"ロボットは、立ち上がり、歩行、旋回、キックなどの動作を滑らかに組み合わせ、状況に応じて適応的に使い分けることができるようになった。"
"ドメインランダマイゼーションや擾乱の導入などにより、低コストのロボットでも安全かつ効果的な動作を学習できることを示した。"