Centrala begrepp
암묵적 재매개화 기술을 사용하여 베타 분포를 활용한 소프트 액터-크리틱 알고리즘을 제안하고, 다양한 MuJoCo 환경에서 성능을 평가한다.
Sammanfattning
이 논문은 소프트 액터-크리틱(SAC) 알고리즘에 베타 정책을 적용하는 방법을 제안한다. SAC는 엔트로피 정규화를 통해 탐험-활용 균형을 달성하는 강화 학습 알고리즘이지만, 재매개화 트릭을 사용할 수 있는 분포에만 적용할 수 있다는 한계가 있다.
이 연구에서는 암묵적 재매개화 기울기를 사용하여 베타 분포를 SAC에 적용할 수 있게 한다. 베타 분포는 행동 공간이 제한된 연속 제어 문제에서 수렴 속도를 높일 수 있다고 알려져 있다.
실험 결과, 제안된 SAC-Beta 알고리즘은 기존 SAC의 정규 정책 및 압축 정규 정책과 유사한 성능을 보였다. 또한 암묵적 재매개화 기울기 계산 방법 간 큰 차이는 없었다. 이는 정확한 기울기 계산이 반드시 필요하지 않음을 시사한다. 향후 연구로는 다양한 분포 가족 및 더 일반화된 기울기 추정기를 탐구할 계획이다.
Statistik
관측 차원과 행동 차원은 환경마다 다르다. (Ant-v4: 27, 8 / HalfCheetah-v4: 17, 6 / Hopper-v4: 11, 3 / Walker2d-v4: 17, 6)
SAC-Beta-AD와 SAC-Beta-OMT의 최종 평균 수익은 Ant-v4에서 각각 5,068 ± 940, 5,456 ± 260이다.
SAC-Beta-AD와 SAC-Beta-OMT의 최종 평균 수익은 HalfCheetah-v4에서 각각 8,363 ± 2,469, 9,378 ± 1,342이다.
SAC-Beta-AD와 SAC-Beta-OMT의 최종 평균 수익은 Hopper-v4에서 각각 2,946 ± 956, 2,946 ± 806이다.
SAC-Beta-AD와 SAC-Beta-OMT의 최종 평균 수익은 Walker2d-v4에서 각각 4,523 ± 409, 4,420 ± 1,230이다.
Citat
"암묵적 재매개화는 재매개화 트릭이 적용되지 않는 감마, 베타, 디리클레, von Mises 등의 분포에 대해 기울기 계산을 가능하게 한다."
"베타 분포는 행동 공간이 제한된 연속 제어 문제에서 TRPO와 ACER 등의 액터-크리틱 알고리즘의 수렴 속도를 크게 향상시킨다고 알려져 있다."