본 논문은 비선형 함수 근사를 이용한 Q-learning 문제를 해결하기 위해 가우스-뉴턴 시간차 학습(GNTD) 알고리즘을 제안한다.
각 반복 단계에서 GNTD 알고리즘은 평균 제곱 벨만 오차(MSBE)의 변형된 형태를 최적화하기 위해 가우스-뉴턴 단계를 수행한다. 이때 타깃 네트워크를 사용하여 이중 샘플링 문제를 해결한다.
다양한 비선형 함수 근사에 대해 GNTD 알고리즘의 유한 샘플 수렴성을 분석한다. 특히 ReLU 활성화 함수를 사용하는 신경망 모델에 대해 기존 신경망 기반 시간차 학습 방법보다 향상된 ˜O(ε^-1) 샘플 복잡도를 달성한다.
일반적인 부드러운 함수 근사에 대해서도 ˜O(ε^-1.5) 샘플 복잡도를 달성한다.
다양한 강화학습 벤치마크에서 GNTD 알고리즘이 기존 시간차 학습 방법보다 높은 보상과 빠른 수렴 속도를 보임을 실험적으로 검증한다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Zhifa Ke,Jun... om arxiv.org 04-02-2024
https://arxiv.org/pdf/2302.13087.pdfDiepere vragen