본 연구는 정책 평가 문제에서 SVRG와 TD-SVRG 알고리즘의 수렴 속도를 개선하였다.
먼저 유한 샘플 환경에서 TD-SVRG 알고리즘의 수렴 속도를 분석하였다. 기존 연구 대비 조건 수 의존성을 제곱에서 선형으로 낮추고 부가적인 요인들을 제거하여 SVRG와 동일한 수렴 속도를 달성하였다.
다음으로 i.i.d. 온라인 샘플링과 마르코프 온라인 샘플링 환경에서 TD-SVRG 알고리즘의 수렴 속도를 분석하였다. 마찬가지로 조건 수 의존성을 개선하여 SVRG와 동일한 수렴 속도를 달성하였다.
이러한 이론적 결과는 실험적으로도 검증되었다. 기존 알고리즘 대비 TD-SVRG 알고리즘이 훨씬 빠른 수렴 속도를 보였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Arsenii Must... lúc arxiv.org 03-22-2024
https://arxiv.org/pdf/2211.16237.pdfYêu cầu sâu hơn