Kernkonzepte
事前学習と強化学習を組み合わせた新しい学習手法により、ヒューマノイドロボットは、急勾配、起伏の激しい、岩場などの困難な地形を自律的に歩行できるようになる。
書誌情報
Radosavovic, I., Kamat, S., Darrell, T., & Malik, J. (2024). Learning Humanoid Locomotion over Challenging Terrain. arXiv preprint arXiv:2410.03654v1.
研究目的
本研究は、ヒューマノイドロボットが、急勾配、起伏の激しい、岩場などの困難な地形を自律的に歩行することを学習できる新しい手法を提案することを目的とする。
方法
本研究では、Transformerモデルを用いて、過去の自己受容感覚観測と行動の履歴に基づいて次の行動を予測するヒューマノイドロボットの歩行制御手法を提案する。この手法は、2段階の学習手順から成る。まず、平坦な地面での歩行動作のデータセットを用いて、シーケンスモデリングによりモデルを事前学習する。次に、起伏のある地形を用いて、強化学習によりモデルを微調整する。事前学習により、モデルは既存のデータから歩行スキルを効率的に学習し、新しいスキルを学習するための良い出発点を提供する。
主な結果
提案手法を用いて学習した制御モデルは、Digitヒューマノイドロボットを用いた実環境およびシミュレーション実験において、急勾配、起伏の激しい、岩場などの様々な困難な地形を歩行することに成功した。また、この制御モデルは、泥、水、砂、草など、学習中に経験したことのない未知の地形にも一般化できることが示された。さらに、この制御モデルは、歩行している地形の傾斜や材質に適応して歩行パターンを動的に調整することができる。
結論
本研究で提案された学習手法は、ヒューマノイドロボットが様々な困難な地形を歩行することを可能にする。事前学習と強化学習を組み合わせることで、ロボットは効率的に歩行スキルを学習し、未知の環境にも適応することができる。
意義
本研究は、ヒューマノイドロボットの歩行制御における重要な進歩である。提案された手法は、ロボットが構造化されていない実世界の環境で動作することを可能にする可能性を秘めている。
限界と今後の研究
本研究では、視覚情報を使用せずに、自己受容感覚観測のみに基づいて歩行制御を行っている。今後の研究では、視覚情報を統合することで、階段や飛び石など、視覚情報が必要な地形のナビゲーションが可能になることが期待される。また、提案された手法を応用して、歩行と操作の両方を実行できる統合ヒューマノイドモデルを開発することも、将来の研究の興味深い方向性である。
Statistiken
ロボットはバークレーのハイキングコースを4マイル以上歩行しました。
ロボットはサンフランシスコで最も急な坂道のいくつかを歩行しました。これらの坂道の勾配は31%を超えています。
コントローラーは、平坦な地面、荒れた地面、緩やかな斜面の地形を10億歩以上歩行する大規模強化学習によって訓練されました。
Transformerモデルは、16タイムステップのコンテキストウィンドウと4つのTransformerブロックを持っています。
Transformerモデルには、合計で140万個の学習可能なパラメータがあります。
モデルは、4つのA100 NVIDIA GPUで300エポックにわたって事前学習されました。
モデルは、単一のA10 NVIDIA GPU上で2000回の反復、2048の並列環境、環境あたり24ステップで微調整されました。