核心概念
본 연구에서는 SVRG와 TD-SVRG 알고리즘의 수렴 속도를 개선하여 기존 연구 대비 더 나은 성능을 달성하였다. 특히 조건 수 의존성을 제곱에서 선형으로 낮추고 부가적인 요인들을 제거하여 SVRG와 동일한 수렴 속도를 달성하였다.
摘要
본 연구는 정책 평가 문제에서 SVRG와 TD-SVRG 알고리즘의 수렴 속도를 개선하였다.
먼저 유한 샘플 환경에서 TD-SVRG 알고리즘의 수렴 속도를 분석하였다. 기존 연구 대비 조건 수 의존성을 제곱에서 선형으로 낮추고 부가적인 요인들을 제거하여 SVRG와 동일한 수렴 속도를 달성하였다.
다음으로 i.i.d. 온라인 샘플링과 마르코프 온라인 샘플링 환경에서 TD-SVRG 알고리즘의 수렴 속도를 분석하였다. 마찬가지로 조건 수 의존성을 개선하여 SVRG와 동일한 수렴 속도를 달성하였다.
이러한 이론적 결과는 실험적으로도 검증되었다. 기존 알고리즘 대비 TD-SVRG 알고리즘이 훨씬 빠른 수렴 속도를 보였다.
统计
랜덤 MDP 환경에서 TD-SVRG 알고리즘의 이론적으로 제안된 배치 크기는 3,176인 반면, 기존 알고리즘들은 수십 조 이상의 배치 크기가 필요하였다.
이는 TD-SVRG 알고리즘이 기존 알고리즘 대비 훨씬 적은 계산량으로 동일한 성능을 달성할 수 있음을 의미한다.
引用
"본 연구에서는 SVRG와 TD-SVRG 알고리즘의 수렴 속도를 개선하여 기존 연구 대비 더 나은 성능을 달성하였다."
"특히 조건 수 의존성을 제곱에서 선형으로 낮추고 부가적인 요인들을 제거하여 SVRG와 동일한 수렴 속도를 달성하였다."