Core Concepts
異なるシミュレーションを使用して、四足ロボットの制御を加速する新しいフレームワークを提案します。
Abstract
ロボット制御における微分可能シミュレーションの潜在能力を探求。
複雑な最適化課題への対処方法として、新しい微分可能シミュレーションフレームワークが提案されています。
一つのシミュレートされたロボットを使用して数分で四足歩行を学習することが可能。
GPU並列化を組み合わせることで、四足ロボットはさまざまな地形でトロット、ペース、バウンド、ギャロップなどの移動スキルを習得する。
現実世界でのゼロショットでも堅牢な移動性能を達成。
異なるシミュレーションから得られたポリシーは直接現実世界に転送可能。
I. INTRODUCTION
多くの機械学習アルゴリズムが安定した歩行ポリシーを達成するために大規模な並列化が必要です。
ポリシー勾配アルゴリズムは高い分散性で知られていますが、追加戦略が安定したトレーニングに必要です。
II. RELATED WORK
モデル予測制御や強化学習は脚付きロボット制御に長い歴史があります。
強化学習はGPUアクセラレーションされた大規模なシミュレーターによって進展しました。
III. METHODOLOGY
A. Overview
シングル剛体ダイナミクスを使用して主要部位を表現し、PDコントローラーで関節ダイナミクスと連結します。
B. Problem Formulation
足付きロボット制御問題として最適化問題を定式化します。
C. Forward Simulation
足付きロボットの本体と関節の別々のシミュレーション手法。
D. Backpropagation Through Time
ポリシー勾配計算時に重要な後方伝播手法。
E. Short-Horizon Policy Training
長期間問題への対応策として短期間ポリシートレーニング手法。
F. Alignment with A Non-Differentiable Simulator
非微分可能な全身ダイナミクス用非微分可能な補正手法。
G. Differentiable Loss Function
微分可能損失関数によるポリシートレーニング方法。
IV. EXPERIMENTAL SETUP
PyTorchおよびCUDAを使用した自前の微分可能シミュレーター開発。
V. EXPERIMENTAL RESULTS
A. Learning to Walk with One Robot
一つの模擬環境で歩行学習。限られたデータでも成功的な結果。
B. Learning Diverse Walking Skills on Challenging Terrains
挑戦的地形で多様な移動スキル学習。RLと比較しても優れたパフォーマンス。
C. On the Importance of Non-differentiable Terminal Penalty
RLと微分可能シミュレーションにおける非微分ターミナルペナルティ比較。RLはタスク報酬向上に有効。
D. Real World Experiment
Mini Cheetahを使用した実世界実験。64台のロボットで訓練されたポリシーが直接転送されることが示されました。
VI. LIMITATIONS
強化学習(ゼロオーダー勾配最適化)はタスク報酬等非微分報酬最適化が利点です。一方、微分可能シムラ 可 能性では連 級関数等明確かつ連續的関数必要です
Stats
この作業では特定メトリックや重要数字は含まれていません
Quotes
"Learning quadrupedal locomotion over challenging terrain."
"Rapid locomotion via reinforcement learning."