비선형 함수 근사를 이용한 가우스-뉴턴 시간차 학습 알고리즘
본 논문에서는 비선형 함수 근사를 이용한 Q-learning 문제를 해결하기 위해 가우스-뉴턴 시간차 학습(GNTD) 알고리즘을 제안한다. GNTD 알고리즘은 각 반복 단계에서 평균 제곱 벨만 오차(MSBE)의 변형된 형태를 최적화하기 위해 가우스-뉴턴 단계를 수행한다. 다양한 비선형 함수 근사에 대해 GNTD 알고리즘의 유한 샘플 수렴성을 보이며, 특히 ReLU 활성화 함수를 사용하는 신경망 모델에 대해 기존 신경망 기반 시간차 학습 방법보다 향상된 샘플 복잡도를 달성한다.