Основные понятия
본 논문에서는 비선형 함수 근사를 이용한 Q-learning 문제를 해결하기 위해 가우스-뉴턴 시간차 학습(GNTD) 알고리즘을 제안한다. GNTD 알고리즘은 각 반복 단계에서 평균 제곱 벨만 오차(MSBE)의 변형된 형태를 최적화하기 위해 가우스-뉴턴 단계를 수행한다. 다양한 비선형 함수 근사에 대해 GNTD 알고리즘의 유한 샘플 수렴성을 보이며, 특히 ReLU 활성화 함수를 사용하는 신경망 모델에 대해 기존 신경망 기반 시간차 학습 방법보다 향상된 샘플 복잡도를 달성한다.
Аннотация
본 논문은 비선형 함수 근사를 이용한 Q-learning 문제를 해결하기 위해 가우스-뉴턴 시간차 학습(GNTD) 알고리즘을 제안한다.
-
각 반복 단계에서 GNTD 알고리즘은 평균 제곱 벨만 오차(MSBE)의 변형된 형태를 최적화하기 위해 가우스-뉴턴 단계를 수행한다. 이때 타깃 네트워크를 사용하여 이중 샘플링 문제를 해결한다.
-
다양한 비선형 함수 근사에 대해 GNTD 알고리즘의 유한 샘플 수렴성을 분석한다. 특히 ReLU 활성화 함수를 사용하는 신경망 모델에 대해 기존 신경망 기반 시간차 학습 방법보다 향상된 ˜O(ε^-1) 샘플 복잡도를 달성한다.
-
일반적인 부드러운 함수 근사에 대해서도 ˜O(ε^-1.5) 샘플 복잡도를 달성한다.
-
다양한 강화학습 벤치마크에서 GNTD 알고리즘이 기존 시간차 학습 방법보다 높은 보상과 빠른 수렴 속도를 보임을 실험적으로 검증한다.
Статистика
신경망 모델의 경우, 네트워크 너비 m = Ω(|S|^3|A|^3/δ^2)일 때 GNTD 알고리즘은 ˜O(ε^-1) 샘플 복잡도를 달성한다.
일반적인 부드러운 함수 근사의 경우, GNTD 알고리즘은 ˜O(ε^-1.5) 샘플 복잡도를 달성한다.
Цитаты
"GNTD 알고리즘은 FQI와 TD 사이의 중간 지점에 위치하며, FQI보다 계산량이 적으면서도 TD보다 우수한 이론적 수렴 성능을 보인다."
"GNTD 알고리즘은 신경망 모델에 대해 기존 신경망 기반 시간차 학습 방법보다 향상된 ˜O(ε^-1) 샘플 복잡도를 달성한다."
"GNTD 알고리즘은 일반적인 부드러운 함수 근사에 대해 ˜O(ε^-1.5) 샘플 복잡도를 달성한다."