본 논문은 정책 평가 문제에서 SVRG와 TD-SVRG 알고리즘의 수렴 속도를 크게 향상시켰다.
주요 내용은 다음과 같다:
유한 샘플 환경에서 TD-SVRG 알고리즘의 수렴 속도를 분석하였다. 기존 연구 대비 조건 수 의존성을 이차에서 선형으로 개선하고, 불필요한 요인들을 제거하여 SVRG와 동일한 수렴 속도를 달성하였다.
배치 기반 TD-SVRG 알고리즘을 제안하여 계산량을 추가로 줄였다. 이를 통해 기존 연구 대비 배치 크기와 계산 복잡도를 크게 개선하였다.
온라인 i.i.d. 샘플링과 마르코프 샘플링 환경에서도 TD-SVRG 알고리즘의 수렴 속도를 분석하였다. 마찬가지로 조건 수 의존성을 이차에서 선형으로 개선하고, 불필요한 요인들을 제거하여 SVRG와 동일한 수렴 속도를 달성하였다.
실험 결과를 통해 이론적 분석 결과가 실제 성능 향상으로 이어짐을 확인하였다. 기존 최고 성능 알고리즘 대비 평균 132배 빠른 수렴 속도를 보였다.
이러한 이론적, 실험적 결과를 통해 정책 평가 문제에서 SVRG와 TD-SVRG 알고리즘의 수렴 속도를 크게 개선하였다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문