Kernkonzepte
작은 학습률 SGD에서 모멘텀은 최적화 및 일반화 성능 향상에 큰 도움이 되지 않는다.
Zusammenfassung
이 논문은 SGD와 SGDM(SGD with Momentum)의 동작을 이론적으로 분석하여 작은 학습률 환경에서 모멘텀이 제한적인 가치만 제공한다는 것을 보여준다.
주요 내용은 다음과 같다:
작은 학습률 환경에서 SGD와 SGDM의 업데이트 과정은 유사하게 동작한다. 즉, 모멘텀이 추가되어도 최종 결과 분포에는 큰 차이가 없다.
모델 파라미터가 국소 최소값 집합에 가까워지는 장기적인 관점에서도 SGD와 SGDM은 동일한 암묵적 정규화 효과를 보인다.
실험 결과에서도 작은 배치 크기나 미세 조정 작업에서는 SGD와 SGDM의 성능이 유사하지만, 큰 배치 크기에서는 SGDM이 SGD보다 약간 나은 성능을 보인다. 이는 모멘텀이 큰 학습률에서 발생하는 진동을 완화하는 데 도움이 되기 때문이다.
전반적으로 작은 학습률 환경에서는 모멘텀이 최적화 및 일반화 성능 향상에 큰 도움이 되지 않는다는 것을 이론적, 실험적으로 보여준다.
Statistiken
작은 학습률 SGD와 SGDM의 업데이트 과정은 O(√η/(1-β)) 수준으로 유사하다.
국소 최소값 집합 근처에서 SGD와 SGDM의 암묵적 정규화 효과는 동일하다.
Zitate
"작은 학습률 SGD에서 모멘텀은 최적화 및 일반화 성능 향상에 큰 도움이 되지 않는다."
"SGD와 SGDM의 업데이트 과정이 유사하다는 것은 모멘텀이 노이즈 감소에 도움이 되지 않음을 시사한다."