核心概念
아담 최적화기는 SGDM에 비해 (L0, L1)-매끄러운 조건 하에서 더 빠른 수렴 속도를 달성할 수 있다.
要約
이 논문은 아담 최적화기와 SGDM의 수렴성을 (L0, L1)-매끄러운 조건 하에서 비교 분석한다.
결정론적 환경에서:
- 아담은 기존 결정론적 1차 최적화기의 하한을 달성할 수 있음을 보였다.
- GDM의 경우 초기 함수 값에 대한 의존성이 더 높은 하한을 가진다.
확률적 환경에서:
- 아담의 수렴 속도 상한은 확률적 1차 최적화기의 하한과 일치한다.
- 반면 SGDM은 학습률에 관계없이 수렴하지 못하는 경우가 존재한다.
이를 통해 아담과 SGDM의 수렴성 차이를 명확히 구분하였다.
또한 정지 시간 기반 기법을 도입하여, 아담의 최소 오차 수렴 속도가 모든 문제 하이퍼파라미터에 대해 하한을 달성함을 보였다. 이 기법은 아담의 매개변수 무관 수렴성 증명에도 활용될 수 있다.
統計
아담 최적화기의 수렴 속도 상한은 O((L0+L1)σ3
0σ2
1(f(w1)-f*)/ε4)이다.
GDM의 수렴 속도 하한은 Ω(L2
1(f(w1)-f*)2+L0(f(w1)-f*)/ε2)이다.