핵심 개념
과대매개변수화된 2층 신경망을 사용하는 시간차 학습 및 Q-러닝은 평균제곱 투영 벨만 오차를 전역적으로 최소화하며, 최적의 표현을 학습할 수 있다.
초록
이 논문은 시간차 학습 및 Q-러닝이 과대매개변수화된 2층 신경망을 사용할 때 표현 학습 능력을 분석한다. 주요 내용은 다음과 같다:
- 시간차 학습 및 Q-러닝이 평균제곱 투영 벨만 오차를 전역적으로 최소화한다는 것을 증명한다.
- 학습된 표현이 최적의 표현으로 수렴한다는 것을 보인다. 이는 기존 연구에서 분석된 신경 탄젠트 커널 체제와 달리, 학습된 표현이 초기 표현에서 크게 벗어날 수 있음을 의미한다.
- 평균장 관점에서의 분석을 통해, 유한 차원 매개변수의 진화를 무한 차원 Wasserstein 공간의 진화로 연결한다.
- 소프트 Q-러닝으로 분석을 확장하여 정책 경사법과의 연결고리를 보인다.
통계
상태-행동 쌍 x의 크기는 1 이하이다.
활성화 함수 σ는 다음 성질을 만족한다:
|σ(x; θ)| ≤ B0
|∇θσ(x; θ)| ≤ B1 · ∥x∥
|∇2
θθσ(x; θ)|F ≤ B2 · ∥x∥2
보상 r의 크기는 |r| ≤ Br이다.