이 논문은 정책 경사 알고리즘에서 경사 부공간의 특성을 분석합니다. 주요 내용은 다음과 같습니다:
매개변수 공간의 일부 방향에서 매우 큰 곡률이 관찰됩니다. 이는 최적화 문제가 잘 조건화되지 않음을 보여줍니다.
정책 경사 및 가치 함수 경사는 이러한 높은 곡률 방향의 부공간에 주로 존재합니다. 이는 감독 학습에서 관찰된 현상과 유사합니다.
이 부공간은 학습 과정에서 상대적으로 안정적으로 유지됩니다. 따라서 초기 단계에서 식별된 부공간 정보를 나중 단계에서 재사용할 수 있습니다.
이러한 특성은 온-정책 PPO와 오프-정책 SAC 알고리즘 모두에서 관찰되었습니다. 오프-정책 SAC의 경우 데이터 분포 변화가 상대적으로 작아 감독 학습과 유사한 양상을 보였습니다.
미니배치 경사와 헤시안 추정치를 사용해도 경사 부공간 특성이 상당 부분 유지되었습니다.
이러한 발견은 정책 경사 최적화에 2차 방법을 적용하거나 매개변수 공간 탐색을 개선하는 등 강화 학습 성능 향상을 위한 유망한 방향을 제시합니다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jan ... lúc arxiv.org 03-19-2024
https://arxiv.org/pdf/2401.06604.pdfYêu cầu sâu hơn