Core Concepts
車輪足ロボットのLoco-Manipulationにおけるアーム制約付きカリキュラム学習の重要性と効果を示す。
Abstract
人間の能力を模倣するために、複雑なタスクを実行するロボットには多くの挑戦がある。
車輪足ロボットにアームを組み合わせることで、実用的な応用領域でより高い機動性と可能性が開かれる。
アーム制約付きカリキュラムRLフレームワークは、安全性と安定性を確保し、ダイナミックグラスピング能力を向上させる。
ロコマニピュレーションタスクでは、CMDPやPPOなどの技術が使用されている。
シミュレーションテストや現実世界での実験により、提案されたアプローチが有効であることが示されている。
INTRODUCTION
人間の能力を模倣するために、複雑なタスクを実行するロボットには多くの挑戦がある。
車輪足ロボットは高いエネルギー効率と優れた適応性を持ち、不均一な地形や障害物を乗り越えられる利点がある。
RELATED WORK
RLに基づく四つ足歩行ロボットの制御パフォーマンスは印象的であり、報酬整形技術が必要であることが示唆されている。
PRELIMINARY
制約マルコフ決定過程(CMDP)は伝統的MDPフレームワークの変種であり、特定要件や制限条件を満たすために追加制約が課されている。
METHOD
アーム制約付きProximal Policy Optimization(AC-PPO)ポリシーは安全性と安定性を確保し、ダイナミックグラスピング能力を向上させている。
EXPERIMENTS
シミュレーションテストおよび現実世界での実験により、提案されたアプローチが有効であることが示されている。
Stats
提案手法は6000環境でトレーニングされました。
シミュレーションテスト中、「Case 1: vcmd x = 0.5m/s, ωcmd z = 0rad/s」、「Case 2: vcmd x = 0m/s, ωcmd z = 0.5rad/s」、「Case 3: vcmd x = 0.5m/s, ωcmd z = 0.5rad/s」という3つのコマンド速度ケースが選択されました。