Core Concepts
다단계 TD-학습 알고리즘은 선형 함수 근사, 오프-정책 학습, 부트스트래핑으로 구성된 "치명적 삼위일체" 시나리오에서 충분히 큰 샘플링 수평선 n을 가질 경우 유의미한 해에 수렴한다.
Abstract
이 논문은 선형 함수 근사, 오프-정책 학습, 부트스트래핑으로 구성된 "치명적 삼위일체" 시나리오에서 다단계 TD-학습 알고리즘의 이론적 기반을 심도 있게 분석한다.
첫 번째 부분에서는 모델 기반 결정론적 알고리즘인 n-단계 투영 가치 반복, 경사 하강 알고리즘, 제어 이론적 접근법의 기본 특성을 포괄적으로 검토한다. 이러한 알고리즘은 모델 없는 강화학습 알고리즘을 이해하고 개발하는 데 중요한 역할을 한다. 특히 n이 충분히 크면 이러한 알고리즘이 유의미한 해에 수렴함을 증명한다.
이러한 결과를 바탕으로, 경사 및 제어 이론적 알고리즘의 모델 없는 강화학습 대응물인 두 가지 n-단계 TD-학습 알고리즘을 제안하고 분석한다.
Stats
충분히 큰 n에 대해 n-단계 투영 벨만 방정식이 수축 사상이 된다.
n이 충분히 크면 n-단계 투영 가치 반복이 유일한 고정점에 수렴한다.
n-단계 TD-학습 알고리즘의 해는 n에 따라 달라지며, 이는 투영 벨만 방정식의 해와 연관된다.
Quotes
"다단계 접근법은 현대 딥 강화학습 에이전트의 성공에 필수적이며, 다양한 시나리오에서 성능을 크게 향상시켰다."
"그러나 n-단계 TD-학습의 효과와 이론적 기반은 아직 충분히 탐구되지 않았다."