Core Concepts
샤프니스 인지 최소화(SAM)는 모델의 일반화 능력을 향상시키지만, 최적화 속도가 느리다는 단점이 있다. 본 논문에서는 SAM의 경사를 SGD 경사와 2차 경사의 투영(PSF)으로 분해하고, PSF의 변화율을 기반으로 적응적 샘플링 기법을 제안하여 최적화 속도를 크게 향상시켰다.
Abstract
본 논문은 샤프니스 인지 최소화(SAM)의 최적화 속도 향상을 위한 방법을 제안한다.
SAM의 경사가 SGD 경사와 2차 경사의 투영(PSF)으로 구성되어 있음을 발견했다. PSF의 L2-노름이 훈련 과정에서 점진적으로 증가하는 것을 관찰했다.
이를 바탕으로 PSF의 변화율을 기반으로 한 적응적 샘플링 기법인 vSAM을 제안했다. 변화율이 작을 때는 이전에 계산한 PSF를 재사용하고, 변화율이 클 때는 PSF를 새로 계산한다.
실험 결과, vSAM은 SAM 대비 약 40% 가량 최적화 속도를 향상시키면서도 모델의 일반화 성능을 유지할 수 있었다.
양자화 인식 훈련에도 vSAM을 적용하여 효과를 검증했다.
Stats
SGD 경사의 L2-노름과 PSF의 L2-노름이 훈련 과정에서 점진적으로 증가한다.
PSF의 L2-노름은 초기에 작은 값에서 점차 큰 값으로 변화한다.
Quotes
"SAM 최적화 과정에서 PSF는 SGD 경사를 평탄한 영역으로 이끌어 간다."
"PSF의 변화율을 기반으로 한 적응적 샘플링 기법은 최적화 속도를 크게 향상시킬 수 있다."