Core Concepts
도메인 무작위화(Domain Randomization)를 통해 시뮬레이션 환경에서 학습한 정책이 실제 환경에서도 잘 작동할 수 있도록 하는 방법을 제안한다. 이를 위해 엔트로피 최대화 기반의 자동화된 도메인 무작위화 기법을 개발하여, 정책의 일반화 성능을 향상시킨다.
Abstract
이 논문은 강화 학습 기반 로봇 제어에서 시뮬레이션과 실제 환경 간의 격차(reality gap)을 해소하는 방법을 제안한다.
도메인 무작위화(Domain Randomization, DR)는 시뮬레이션 환경의 동역학 파라미터를 무작위로 변화시켜 정책의 일반화 성능을 높이는 기법이다. 그러나 DR은 적절한 파라미터 분포 선택이 중요하며, 과도한 무작위화는 정책 성능 저하를 초래할 수 있다.
이 논문에서는 DOmain RAndomization via Entropy MaximizatiON (DORAEMON)이라는 새로운 방법을 제안한다. DORAEMON은 정책의 성공 확률을 제약 조건으로 하여 동역학 파라미터 분포의 엔트로피를 최대화한다. 이를 통해 정책이 가능한 넓은 범위의 동역학 환경에서 작동할 수 있도록 한다.
DORAEMON은 실제 환경 데이터 없이도 자동으로 최적의 도메인 무작위화 분포를 찾아낼 수 있다. 또한 정책의 성공 여부를 판단하는 간단한 지표만 있으면 되므로, 도메인 지식 없이도 적용할 수 있다.
실험 결과, DORAEMON은 기존 방법들에 비해 일관적으로 우수한 성능을 보였다. 특히 7자유도 로봇 팔의 박스 밀기 작업에서 실제 환경으로의 성공적인 전이를 보여주었다.
Stats
정책의 성공 확률 G(θ, ϕ)는 트레이젝토리 τ의 성공 지표 σ(τ)의 기댓값이다.
성공 지표 σ(τ)는 트레이젝토리 τ의 누적 보상이 특정 임계값 이상인지 여부를 나타낸다.
Quotes
"DORAEMON은 실제 환경 데이터 없이도 자동으로 최적의 도메인 무작위화 분포를 찾아낼 수 있다."
"DORAEMON은 정책의 성공 여부를 판단하는 간단한 지표만 있으면 되므로, 도메인 지식 없이도 적용할 수 있다."