Core Concepts
RL과 MPC를 통합하여 로봇의 민첩성, 강건성 및 적응형 행동을 향상시킴. 특히 지지 발 제어와 스윙 발 반사를 통합하여 모델 불확실성을 해결하고 보행 성능을 개선함.
Abstract
이 연구는 강화학습(RL)과 모델 예측 제어(MPC)를 통합하여 네 발 로봇의 민첩성, 강건성 및 적응형 행동을 향상시키는 혁신적인 접근법을 제안한다.
MPC는 예측 능력이 뛰어나지만 모델 불확실성에 취약하다. 반면 RL은 과거 경험을 활용하여 적응력이 뛰어나지만 일반화가 어렵다. 이 연구에서는 MPC의 장점과 RL의 장점을 결합하여 이러한 단점을 극복하고자 한다.
핵심 아이디어는 지지 발 제어와 스윙 발 반사를 통합하는 것이다. 기존 접근법은 이 두 가지를 분리했지만, 이 연구에서는 RL을 통해 이를 통합함으로써 모델 불확실성을 해결하고 보행 성능을 개선한다.
구체적으로, 이 연구는 다음과 같은 기여를 한다:
RL-MPC 통합 프레임워크를 통해 민첩성, 강건성 및 적응형 행동을 향상시킴
지지 발 힘 제어와 스윙 발 반사를 통합하여 모델 불확실성을 해결하고 보행 성능을 개선함
로봇 플랫폼에 독립적인 RL 모듈을 개발하여 다양한 로봇에 적용 가능
실험 결과, 이 접근법은 Unitree A1 로봇에서 최대 8.5 rad/s의 회전 속도, 3 m/s의 최대 주행 속도, 2.5 m/s의 고속 조향 등 뛰어난 성능을 보였다. 또한 Go1, AlienGo 등 다른 로봇 플랫폼에서도 제로 샷 전이가 가능했다. 이는 이 연구의 일반화 능력과 강건성을 입증한다.
Stats
최대 회전 속도: 8.5 rad/s
최대 주행 속도: 3 m/s
최대 조향 속도: 2.5 m/s
최대 하중 지지 능력: Unitree A1 10 kg, Go1 7 kg, AlienGo 10 kg
Quotes
"우리의 혁신적인 접근법은 지지 발 제어와 스윙 발 반사를 통합하여 모델 불확실성을 해결하고 보행 성능을 개선한다."
"우리의 프레임워크는 로봇 플랫폼에 독립적인 RL 모듈을 제공하여 다양한 로봇에 대한 제로 샷 전이를 실현한다."