핵심 개념
작은 초기화를 사용하여 학습할 때, 깊은 동질 신경망의 가중치는 초기 단계에서 작은 크기를 유지하며 신경망 상관 함수의 KKT 점을 따라 방향으로 수렴한다.
초록
이 논문은 국소 리프시츠 경사를 가지는 L-동질 신경망(L > 2)의 초기 학습 동역학을 분석한다.
제곱 손실 및 로지스틱 손실 함수를 사용할 때, 충분히 작은 초기화에서 가중치는 초기 단계 동안 작은 크기를 유지하며 신경망 상관 함수(NCF)의 비음수 KKT 점을 따라 방향으로 수렴한다.
제곱 손실 함수를 사용할 때, 가중치가 특정 안장점 근처에 있는 경우에도 유사한 방향 수렴이 관찰된다. 이때 가중치는 작은 크기를 유지하며 NCF의 비음수 KKT 점을 따라 방향으로 수렴한다.
실험을 통해 초기 학습 단계에서 가중치에 저차원 구조가 나타나는 것을 확인하였으나, 이는 본 논문의 결과로 설명되지 않는다.
ReLU 신경망에 대한 결과 확장에는 어려움이 있으며, 이는 향후 연구 과제로 남는다.
통계
초기화 크기 δ가 작을수록 가중치 크기 ∥w(t)∥2가 작은 시간 구간이 길어진다.
가중치 ∥w(T ϵ)∥2가 δη/2 이상이면 w(T ϵ)가 NCF의 비음수 KKT 점을 따라 수렴한다.
가중치 ∥w(T ϵ)∥2가 2δϵ 이하이면 w(T ϵ)가 0에 가까워진다.
인용구
"작은 초기화를 사용하여 학습할 때, 깊은 동질 신경망의 가중치는 초기 단계에서 작은 크기를 유지하며 신경망 상관 함수의 KKT 점을 따라 방향으로 수렴한다."
"제곱 손실 함수를 사용할 때, 가중치가 특정 안장점 근처에 있는 경우에도 유사한 방향 수렴이 관찰된다. 이때 가중치는 작은 크기를 유지하며 NCF의 비음수 KKT 점을 따라 방향으로 수렴한다."