초록
이 논문은 분포적 시간차(TD) 알고리즘의 통계적 성능을 비조망적인 관점에서 분석합니다. 논문은 비모수적 분포적 TD(NTD)와 범주적 분포적 TD(CTD) 두 가지 인스턴스를 고려합니다. NTD의 경우, p-Wasserstein 거리를 사용하여 ε-최적 추정자를 달성하기 위해 eO[1/ε²(1-γ)²p+2] 반복이 필요하며, KS 거리를 사용하여 ε-최적 추정자를 달성하기 위해 eO[1/ε²(1-γ)⁴] 반복이 필요합니다. CTD의 경우, p-Wasserstein 거리를 사용하여 ε-최적성을 보장하기 위해 eO[1/ε²(1-γ)²p+2] 반복이 필요합니다. 논문은 상세한 분석을 제공하며, 분포적 TD 알고리즘의 효율성을 강조합니다.
통계
NTD의 경우, ε-최적 추정자를 달성하기 위해 eO[1/ε²(1-γ)²p+2] 반복이 필요합니다.
NTD의 경우, KS 거리를 사용하여 ε-최적 추정자를 달성하기 위해 eO[1/ε²(1-γ)⁴] 반복이 필요합니다.
CTD의 경우, p-Wasserstein 거리를 사용하여 ε-최적성을 보장하기 위해 eO[1/ε²(1-γ)²p+2] 반복이 필요합니다.
인용구
"Distributional reinforcement learning (DRL) addresses risk and uncertainties by modeling the complete distribution of returns."
"NTD is a SA modification of distributional DP, allowing for analysis using techniques from the SA literature."