本研究では、人型ロボットのパルクールタスクを学習するための統一的なフレームワークを提案している。従来の手法は、単一のパルクールトラックの軌道最適化や、動作参照に基づく強化学習ポリシーの訓練に限られていた。
提案手法では、フラクタルノイズを含む地形を使うことで、足の上げ動作を特別に報酬に組み込まずに学習できる。また、10種類の異なるパルクール障害物を組み合わせた自動カリキュラムを使うことで、ロボットが様々なパルクールスキルを自律的に選択できるようになる。
さらに、シミュレーション上で訓練したオラクルポリシーから、深度カメラ画像を使った視覚ベースの実行可能なポリシーを蒸留する手法を提案している。これにより、ロボットは屋内外の環境で自律的にパルクールタスクを遂行できるようになる。
実験では、提案手法がプラットフォームへの飛び乗り、障害物の飛び越え、階段の昇降などの難しいパルクールタスクを高い成功率で達成できることを示している。また、腕の動作を人間がテレオペレーションしても、ロボットの姿勢制御が安定することも確認している。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések