이 논문은 강화학습 기반 로봇 보행 제어에서 대칭성을 활용하는 두 가지 접근법을 제안하고 평가한다.
첫째, 데이터 증강을 통해 대략적인 대칭성을 학습하는 방법(PPOaug)이다. 이는 대칭 상태와 행동에 대한 정보를 정책 및 가치 함수 학습에 활용한다.
둘째, 신경망 구조에 엄격한 대칭성 제약을 부과하는 방법(PPOeqic)이다. 이는 정책과 가치 함수를 각각 대칭 변환에 대해 equivariant와 invariant하게 학습한다.
실험 결과, PPOeqic 정책이 일관적으로 더 높은 샘플 효율과 과제 수행 성능을 보였다. 또한 PPOeqic 정책은 더 안정적이고 자연스러운 보행 패턴을 학습하였다.
시뮬레이션과 실제 환경에서의 평가를 통해, 대칭성을 활용한 접근법들이 기존 방법 대비 더 우수한 강건성과 실세계 적용성을 보였다. 이는 로봇 보행 제어에서 대칭성 활용의 중요성을 시사한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Zhi ... lúc arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17320.pdfYêu cầu sâu hơn