이 논문은 소프트 액터-크리틱(SAC) 알고리즘에 베타 정책을 적용하는 방법을 제안한다. SAC는 엔트로피 정규화를 통해 탐험-활용 균형을 달성하는 강화 학습 알고리즘이지만, 재매개화 트릭을 사용할 수 있는 분포에만 적용할 수 있다는 한계가 있다.
이 연구에서는 암묵적 재매개화 기울기를 사용하여 베타 분포를 SAC에 적용할 수 있게 한다. 베타 분포는 행동 공간이 제한된 연속 제어 문제에서 수렴 속도를 높일 수 있다고 알려져 있다.
실험 결과, 제안된 SAC-Beta 알고리즘은 기존 SAC의 정규 정책 및 압축 정규 정책과 유사한 성능을 보였다. 또한 암묵적 재매개화 기울기 계산 방법 간 큰 차이는 없었다. 이는 정확한 기울기 계산이 반드시 필요하지 않음을 시사한다. 향후 연구로는 다양한 분포 가족 및 더 일반화된 기울기 추정기를 탐구할 계획이다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Luca Della L... ב- arxiv.org 09-10-2024
https://arxiv.org/pdf/2409.04971.pdfשאלות מעמיקות