Core Concepts
신경망의 활성화 편향을 선형 제약 가중치를 통해 해결하여 신경망 학습을 효율적으로 가속화할 수 있다.
Abstract
이 논문에서는 신경망의 활성화 편향이라는 현상을 식별하고, 이를 해결하기 위한 선형 제약 가중치(LCW) 기법을 제안한다.
활성화 편향은 신경망의 전 활성화 값이 이전 층의 활성화 벡터 평균과 뉴런의 가중치 벡터 사이의 각도에 따라 비정상적인 평균값을 가지는 현상이다. 이는 신경망 학습을 어렵게 만드는 요인 중 하나이다.
LCW는 각 뉴런의 가중치 벡터의 합이 0이 되도록 제약하는 기법이다. 이를 통해 전 활성화 값의 평균을 0에 가깝게 만들어 활성화 편향을 해결할 수 있다.
LCW의 효과를 분석하기 위해 신경망 내부 변수의 분산 변화를 전방향과 역방향으로 분석하였다. 이를 통해 LCW가 기존 신경망에서 발생하던 기울기 소실 문제를 해결할 수 있음을 보였다.
실험 결과, LCW를 적용한 심층 신경망이 기존 기법 대비 더 효율적으로 학습되는 것을 확인하였다. 또한 배치 정규화와 결합하면 일반화 성능도 향상되는 것으로 나타났다.
Stats
신경망의 전 활성화 값 zl
i의 기댓값 E(zl
i)은 0이다.
전 활성화 값 zl
i의 분산 V (zl
i)은 이전 층 활성화 벡터 al−1의 분산 σ2
al−1과 뉴런의 가중치 벡터 wl
i의 L2 노름 ∥wl
i∥2의 곱으로 표현된다.
전 활성화 값 ∇zl
i의 기댓값 E(∇al−1
j
)은 0이다.
전 활성화 값 ∇zl
i의 분산 V (∇al−1
j
)은 ∇zl의 분산 σ2
∇zl과 뉴런의 가중치 벡터 ˜
wl
j의 L2 노름 ∥˜
wl
j∥2의 곱으로 표현된다.
Quotes
"In this paper, we first identify activation shift, a simple but remarkable phenomenon in a neural network in which the preactivation value of a neuron has non-zero mean that depends on the angle between the weight vector of the neuron and the mean of the activation vector in the previous layer."
"We propose the use of so-called linearly constrained weights (LCW) to resolve the activation shift in both fully connected and convolutional layers."
"Interestingly, in a fully connected layer in which the activation shift has been resolved by LCW, the variance is amplified by the same rate in both forward and backward chains. In contrast, the variance is more amplified in the forward chain than in the backward chain when activation shift occurs in the layer."