Główne pojęcia
신경망 기반 액터-크리틱 알고리즘은 표현 학습을 통해 최적의 정책을 효율적으로 찾을 수 있음을 보여준다.
Streszczenie
이 논문은 신경망 기반 액터-크리틱 알고리즘의 수렴성과 최적성을 분석한다.
- 액터는 근사적 정책 최적화(PPO)를 통해 업데이트되고, 크리틱은 시간차 학습(TD)을 통해 업데이트된다.
- 두 알고리즘은 서로 다른 학습률로 업데이트되는 두 타임스케일 메커니즘을 사용한다.
- 무한폭 신경망과 연속시간 극한에서, 적절한 타임스케일 분리 조건 하에서 신경망 기반 액터-크리틱 알고리즘이 전역 최적 정책을 아 아 수렴한다는 것을 증명한다.
- 또한 크리틱 신경망이 초기 표현에서 일정 범위 내에서 진화할 수 있음을 보인다.
Statystyki
최적 정책 π의 기대 총 보상 J(π)은 시간 평균 J(πt)와 정책 평가 오차의 합으로 상한 bound 됨
정책 평가 오차는 시간 평균 O(η^-1 T^-1 + α^(1/2)η^-1 + α^-1) 수준으로 수렴
Cytaty
"Going beyond the NTK regime, does neural AC provably find the globally optimal policy? How does the feature representation associated with the neural network evolve along with neural AC?"
"It turns out that the separation of timescales plays an important role in the convergence analysis."