Core Concepts
분산 환경에서 N개의 에이전트가 독립적으로 마르코프 체인을 샘플링하고 TD(λ) 알고리즘을 실행할 때, 에이전트들이 최종적으로 결과를 평균화하는 것만으로도 중앙집중형 대비 N배 빠른 수렴 속도를 달성할 수 있다.
Abstract
이 논문은 분산 강화학습 환경에서 TD(λ) 알고리즘의 효율적인 처리 방법을 제안한다.
주요 내용은 다음과 같다:
N개의 에이전트가 독립적으로 동일한 MDP와 정책을 가지고 마르코프 체인을 샘플링하여 TD(λ) 알고리즘을 실행한다.
에이전트들은 학습 과정에서 서로 통신하지 않고, 최종적으로 결과를 평균화한다.
이러한 "원샷 평균화" 방식을 통해 중앙집중형 대비 N배 빠른 수렴 속도를 달성할 수 있음을 이론적으로 증명한다.
이는 기존 연구들에 비해 통신 overhead를 크게 줄일 수 있는 장점이 있다.
마르코프 샘플링 환경과 TD(λ) 알고리즘으로 범위를 확장하여, 기존 TD(0) 결과를 일반화하였다.
Stats
마르코프 체인의 혼합 시간 τmix은 t ≥ τmix일 때 ||P(s(t) ∈ ·|s(0)) − μ||1 ≤ αt를 만족한다.
θ*의 노름은 rmax/ω(λ)I(1-γ) 이하이다.
Quotes
"우리는 N개의 에이전트가 독립적으로 동일한 MDP와 정책을 가지고 마르코프 체인을 샘플링하여 TD(λ) 알고리즘을 실행하는 분산 설정을 고려한다."
"우리의 기여는 원샷 평균화만으로도 중앙집중형 대비 N배 빠른 수렴 속도를 달성할 수 있음을 이론적으로 증명하는 것이다."