이 논문은 복잡하고 민첩한 실제 세계 행동을 가능하게 하는 강건한 정책을 설계하는 문제를 다룹니다. 모델 없는 강화학습(MFRL)은 유연하고 일반적이지만 취약한 정책을 생성하는 반면, 모델 예측 제어(MPC)는 실시간으로 재계획하여 교란과 모델 부정확성에 강건합니다. 그러나 MPC는 최적 전략보다 성능이 떨어질 수 있습니다. 이를 해결하기 위해 저자들은 DMPO를 제안합니다.
DMPO는 MPC를 구조화된 정책 클래스로 간주하고 강화학습을 통해 최적화기와 초기화 방법을 직접 학습합니다. 이를 통해 기존 MPC보다 적은 샘플 수로도 더 나은 성능을 달성할 수 있습니다. 실제 쿼드로터 플랫폼에서의 실험 결과, DMPO는 엔드-투-엔드 MFRL 정책보다 19% 향상된 성능을 보였고, 기존 MPC 대비 최대 27%의 성능 향상을 달성했습니다. 또한 DMPO는 알 수 없는 바람과 부착된 드래그 플레이트에 대해 제로샷 적응이 가능하여, 기존 MPC와 MFRL 정책을 모두 능가했습니다. 이를 통해 DMPO가 MPC의 강건성을 유지하면서도 최적 정책에 더 근접할 수 있음을 보여줍니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문