核心概念
날카로움 인식 최소화(SAM)는 학습 과정에서 안정성의 경계에서 작동하며, 이를 통해 일반화 성능을 향상시킨다.
摘要
이 논문은 날카로움 인식 최소화(SAM)의 동작 원리를 분석한다.
- 기존 연구에서 밝혀진 바와 같이, 경사하강법(GD)으로 신경망을 학습할 때 Hessian 행렬의 연산자 노름이 2/η 근처에 수렴하는 "안정성의 경계" 현상이 관찰된다.
- 저자들은 SAM의 경우에도 유사한 분석을 수행하여, SAM의 안정성 경계가 gradient 노름에 의존한다는 것을 보였다.
- 3가지 딥러닝 실험 과제에서 SAM이 이렇게 계산된 안정성 경계에서 작동하는 것을 확인했다.
- SAM은 학습 초기부터 매개변수 공간의 부드러운 영역을 향해 움직이며, 이를 통해 일반화 성능을 향상시킨다.
統計資料
Hessian 행렬의 연산자 노름이 2/η 근처에 수렴한다.
SAM의 안정성 경계는 gradient 노름에 의존한다.
引述
"Recent experiments have shown that, often, when training a neural network with gradient descent (GD) with a step size η, the operator norm of the Hessian of the loss grows until it approximately reaches 2/η, after which it fluctuates around this value."
"Unlike the case for GD, the resulting SAM-edge depends on the norm of the gradient."