본 연구는 정책 평가 문제에서 SVRG와 TD-SVRG 알고리즘의 수렴 속도를 개선하였다.
먼저 유한 샘플 환경에서 TD-SVRG 알고리즘의 수렴 속도를 분석하였다. 기존 연구 대비 조건 수 의존성을 제곱에서 선형으로 낮추고 부가적인 요인들을 제거하여 SVRG와 동일한 수렴 속도를 달성하였다.
다음으로 i.i.d. 온라인 샘플링과 마르코프 온라인 샘플링 환경에서 TD-SVRG 알고리즘의 수렴 속도를 분석하였다. 마찬가지로 조건 수 의존성을 개선하여 SVRG와 동일한 수렴 속도를 달성하였다.
이러한 이론적 결과는 실험적으로도 검증되었다. 기존 알고리즘 대비 TD-SVRG 알고리즘이 훨씬 빠른 수렴 속도를 보였다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Arsenii Must... في arxiv.org 03-22-2024
https://arxiv.org/pdf/2211.16237.pdfاستفسارات أعمق