Core Concepts
날카로움 인식 최소화(SAM)는 학습 과정에서 안정성의 경계에서 작동하며, 이를 통해 일반화 성능을 향상시킨다.
Abstract
이 논문은 날카로움 인식 최소화(SAM)의 동작 원리를 분석한다.
기존 연구에서 밝혀진 바와 같이, 경사하강법(GD)으로 신경망을 학습할 때 Hessian 행렬의 연산자 노름이 2/η 근처에 수렴하는 "안정성의 경계" 현상이 관찰된다.
저자들은 SAM의 경우에도 유사한 분석을 수행하여, SAM의 안정성 경계가 gradient 노름에 의존한다는 것을 보였다.
3가지 딥러닝 실험 과제에서 SAM이 이렇게 계산된 안정성 경계에서 작동하는 것을 확인했다.
SAM은 학습 초기부터 매개변수 공간의 부드러운 영역을 향해 움직이며, 이를 통해 일반화 성능을 향상시킨다.
Stats
Hessian 행렬의 연산자 노름이 2/η 근처에 수렴한다.
SAM의 안정성 경계는 gradient 노름에 의존한다.
Quotes
"Recent experiments have shown that, often, when training a neural network with gradient descent (GD) with a step size η, the operator norm of the Hessian of the loss grows until it approximately reaches 2/η, after which it fluctuates around this value."
"Unlike the case for GD, the resulting SAM-edge depends on the norm of the gradient."