Core Concepts
본 연구는 동역학의 대칭성을 활용하여 비대칭 보상 환경에서도 효과적으로 모델을 학습하는 방법을 제안한다. 기존 연구와 달리 동역학과 보상 함수의 대칭성이 일치하지 않는 경우에도 적용 가능한 방법을 제시한다.
Abstract
최근 강화 학습 연구에서는 모델의 대칭성을 활용하여 학습 효율을 높이는 방법이 주목받고 있다.
기존 연구에서는 동역학과 보상 함수가 동일한 대칭성을 가진다는 가정을 사용했다.
하지만 실제 환경에서는 동역학과 보상 함수의 대칭성이 일치하지 않는 경우가 많다.
본 연구에서는 동역학의 대칭성만을 활용하여 모델을 학습하는 방법을 제안한다.
Cartan의 이동 좌표계 방법을 사용하여 대칭성을 가진 동역학 모델을 학습할 수 있는 방법을 제시한다.
주차 환경과 리치어 환경에 대한 실험을 통해 제안 방법의 성능을 검증했다.
제안 방법은 적은 수의 모델 파라미터에서 기존 방법 대비 더 나은 성능을 보였다.
Stats
주차 환경에서 대칭성을 활용한 모델 학습 방법은 적은 수의 파라미터에서 기존 방법 대비 더 낮은 관측 오차를 보였다.
리치어 환경에서도 대칭성을 활용한 모델 학습 방법이 전반적으로 더 나은 성능을 보였다.
Quotes
"본 연구는 동역학의 대칭성만을 활용하여 모델을 학습하는 방법을 제안한다."
"Cartan의 이동 좌표계 방법을 사용하여 대칭성을 가진 동역학 모델을 학습할 수 있는 방법을 제시한다."