Core Concepts
노이즈 주입을 통해 신경망 손실 함수의 Hessian 행렬을 정규화하여 일반화 성능을 향상시키는 알고리즘을 제안하고, 이에 대한 엄밀한 수렴률 분석을 수행한다.
Abstract
이 논문은 신경망 학습 시 노이즈 주입을 통해 손실 함수의 Hessian 행렬을 정규화하여 일반화 성능을 향상시키는 알고리즘을 제안한다.
주요 내용은 다음과 같다:
노이즈 주입을 통해 손실 함수 F(W) = E[f(W+U)]를 최소화하는 알고리즘을 제안한다. 이때 U는 평균이 0인 확률 분포 P에서 추출된 랜덤 벡터이다.
제안한 알고리즘은 W에 U와 -U를 동시에 더하여 gradient를 계산하고, 이를 평균하는 방식으로 구성된다. 이를 통해 1차 항의 분산을 줄이면서도 2차 항의 정규화 효과를 유지할 수 있다.
제안한 알고리즘의 수렴률을 분석하여 gradient 노름의 상한과 하한을 도출한다. 이를 통해 알고리즘의 수렴 특성을 이해할 수 있다.
다양한 이미지 분류 데이터셋에 대한 실험을 통해 제안한 알고리즘이 기존의 sharp-reducing 방법들에 비해 우수한 성능을 보임을 확인한다. 또한 Hessian 행렬의 정규화 효과도 검증한다.
제안한 알고리즘은 weight decay, data augmentation 등의 기존 기법들과 호환되어 더 나은 성능 향상을 보인다.
Stats
노이즈 주입 시 손실 함수 F(W)와 원 함수 f(W) 간의 차이는 O(σ^3) 수준으로 작다.
실험 결과, 다양한 신경망 모델과 데이터셋에서 제안한 알고리즘이 기존 방법들에 비해 최대 1.8%의 테스트 정확도 향상을 보였다.
제안한 알고리즘은 손실 함수 Hessian의 trace와 최대 eigenvalue를 각각 17.7%, 12.8% 감소시켰다.
Quotes
"F(W)는 f(W)에 2^-1σ^2 * Tr[∇^2f(W)]의 penalty가 추가된 형태로 근사될 수 있다."
"제안한 알고리즘은 W+U와 W-U에 대한 gradient를 평균하여 계산함으로써 1차 항의 분산을 줄이면서도 2차 항의 정규화 효과를 유지할 수 있다."