이 논문은 SAM(Sharpness-Aware Minimization)의 핵심 구성 요소를 심층적으로 분석하고, 이를 바탕으로 새로운 알고리즘인 F-SAM을 제안한다.
먼저, 논문은 SAM의 적대적 교란 방향을 두 직교 성분으로 분해한다. 첫 번째 성분은 전체 경사 성분이고, 두 번째 성분은 배치별 확률적 경사 노이즈 성분이다. 실험 결과, 전체 경사 성분만을 사용하면 일반화 성능이 크게 저하되는 반면, 확률적 경사 노이즈 성분만을 사용하면 일반화 성능이 향상된다는 것을 발견했다. 이는 SAM의 효과성이 주로 minibatch 경사의 확률적 경사 노이즈 성분에서 비롯된다는 것을 시사한다.
이러한 통찰을 바탕으로 F-SAM을 제안한다. F-SAM은 전체 경사 성분의 부정적인 영향을 완화하고 확률적 경사 노이즈 성분을 활용하여 SAM의 일반화 성능을 더욱 향상시킨다. 구체적으로, F-SAM은 지수 이동 평균(EMA)을 사용하여 전체 경사를 효율적으로 추정하고, 이를 제거한 확률적 경사 노이즈 성분을 적대적 교란 방향으로 사용한다. 또한 이론적 분석을 통해 EMA 근사의 타당성과 F-SAM의 수렴성을 입증한다.
실험 결과, F-SAM은 다양한 데이터셋과 네트워크 아키텍처에서 SAM 및 기존 최적화 기법들을 능가하는 일반화 성능을 보여준다. 특히 레이블 노이즈가 심한 경우나 큰 교란 반경을 사용할 때 F-SAM의 성능 향상이 두드러진다. 이는 F-SAM이 SAM의 과도한 교란 반경 민감성 문제를 완화할 수 있음을 시사한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문