이 논문은 아담 최적화기와 SGDM의 수렴성을 (L0, L1)-매끄러운 조건 하에서 비교 분석한다.
결정론적 환경에서:
확률적 환경에서:
이를 통해 아담과 SGDM의 수렴성 차이를 명확히 구분하였다.
또한 정지 시간 기반 기법을 도입하여, 아담의 최소 오차 수렴 속도가 모든 문제 하이퍼파라미터에 대해 하한을 달성함을 보였다. 이 기법은 아담의 매개변수 무관 수렴성 증명에도 활용될 수 있다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Bohan Wang,H... at arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15146.pdfDeeper Inquiries