핵심 개념
복잡한 로봇 시스템을 위한 보상과 제약 조건의 균형을 통해 보행 제어기를 효과적으로 학습할 수 있다.
초록
이 연구에서는 복잡한 로봇 시스템을 위한 보상과 제약 조건을 활용한 강화학습 프레임워크를 제안한다. 기존 연구에서는 보상 공학에 많은 노력이 필요했지만, 제안 프레임워크에서는 제약 조건을 활용하여 보상 공학을 크게 줄일 수 있다.
제안 프레임워크에서는 두 가지 유형의 제약 조건을 사용한다. 확률적 제약 조건은 원치 않는 이벤트의 발생 확률을 제한하고, 평균 제약 조건은 로봇의 물리적 변수의 평균값을 제한한다. 또한 효율적인 정책 최적화 알고리즘을 사용하여 다수의 제약 조건을 처리할 수 있다.
제안 프레임워크를 다양한 다리 로봇(6개의 4족 로봇, 1개의 2족 로봇)에 적용하여 실험을 수행했다. 실험 결과, 기존 보상 공학 기반 접근법과 유사한 수준의 강건한 제어 성능을 달성할 수 있었으며, 로봇 플랫폼 간 일반화 성능도 향상되었다. 또한 제약 조건 기반 접근법을 통해 보상 공학 과정을 크게 단순화할 수 있었다.
통계
관절 각도 제약 조건 만족도: 최대 0.025 (제한 0.025)
관절 속도 제약 조건 만족도: 최대 0.021 (제한 0.025)
관절 토크 제약 조건 만족도: 최대 0.004 (제한 0.025)
몸체 접촉 제약 조건 만족도: 최대 0.008 (제한 0.025)
무게 중심 제약 조건 만족도: 최대 0.009 (제한 0.025)
보행 패턴 제약 조건 만족도: 최대 0.17 (제한 0.25)
직교 속도 제약 조건: 최대 0.33 m/s (제한 0.35 m/s)
접촉 속도 제약 조건: 최대 0.15 m/s (제한 0.2 m/s)
발 높이 제약 조건: 최소 -0.17 m (제한 -0.15 m)
발 높이 제약 조건: 최대 0.35 m (제한 0.5 m)
대칭성 제약 조건 만족도: 최대 0.08 (제한 0.1)