核心概念
암묵적 재매개화 기술을 사용하여 베타 분포를 활용한 소프트 액터-크리틱 알고리즘을 제안하고, 다양한 MuJoCo 환경에서 성능을 평가한다.
摘要
이 논문은 소프트 액터-크리틱(SAC) 알고리즘에 베타 정책을 적용하는 방법을 제안한다. SAC는 엔트로피 정규화를 통해 탐험-활용 균형을 달성하는 강화 학습 알고리즘이지만, 재매개화 트릭을 사용할 수 있는 분포에만 적용할 수 있다는 한계가 있다.
이 연구에서는 암묵적 재매개화 기울기를 사용하여 베타 분포를 SAC에 적용할 수 있게 한다. 베타 분포는 행동 공간이 제한된 연속 제어 문제에서 수렴 속도를 높일 수 있다고 알려져 있다.
실험 결과, 제안된 SAC-Beta 알고리즘은 기존 SAC의 정규 정책 및 압축 정규 정책과 유사한 성능을 보였다. 또한 암묵적 재매개화 기울기 계산 방법 간 큰 차이는 없었다. 이는 정확한 기울기 계산이 반드시 필요하지 않음을 시사한다. 향후 연구로는 다양한 분포 가족 및 더 일반화된 기울기 추정기를 탐구할 계획이다.
統計資料
관측 차원과 행동 차원은 환경마다 다르다. (Ant-v4: 27, 8 / HalfCheetah-v4: 17, 6 / Hopper-v4: 11, 3 / Walker2d-v4: 17, 6)
SAC-Beta-AD와 SAC-Beta-OMT의 최종 평균 수익은 Ant-v4에서 각각 5,068 ± 940, 5,456 ± 260이다.
SAC-Beta-AD와 SAC-Beta-OMT의 최종 평균 수익은 HalfCheetah-v4에서 각각 8,363 ± 2,469, 9,378 ± 1,342이다.
SAC-Beta-AD와 SAC-Beta-OMT의 최종 평균 수익은 Hopper-v4에서 각각 2,946 ± 956, 2,946 ± 806이다.
SAC-Beta-AD와 SAC-Beta-OMT의 최종 평균 수익은 Walker2d-v4에서 각각 4,523 ± 409, 4,420 ± 1,230이다.
引述
"암묵적 재매개화는 재매개화 트릭이 적용되지 않는 감마, 베타, 디리클레, von Mises 등의 분포에 대해 기울기 계산을 가능하게 한다."
"베타 분포는 행동 공간이 제한된 연속 제어 문제에서 TRPO와 ACER 등의 액터-크리틱 알고리즘의 수렴 속도를 크게 향상시킨다고 알려져 있다."