Konsep Inti
작은 초기화를 가진 두 층 ReLU 네트워크에서 뉴런들은 초기 학습 단계에서 입력 데이터의 양성 또는 음성 클러스터에 정렬되며, 이후 손실 함수가 빠르게 수렴하고 첫 번째 층의 가중치 행렬이 저차원이 된다.
Abstrak
이 논문은 작은 초기화를 가진 두 층 ReLU 네트워크의 이진 분류 문제 학습 동역학을 분석한다. 입력 데이터가 잘 분리된 경우, 즉 동일한 라벨의 데이터 쌍은 양의 상관관계를, 다른 라벨의 데이터 쌍은 음의 상관관계를 가지는 경우를 고려한다.
분석 결과는 다음과 같다:
초기 학습 단계에서, 첫 번째 층의 뉴런들은 양성 데이터 또는 음성 데이터 클러스터에 정렬된다. 이때 정렬 시간은 O(log n/√μ)로 상한이 주어진다.
정렬 단계 이후, 손실 함수는 O(1/t) 속도로 수렴하며, 첫 번째 층의 가중치 행렬은 근사적으로 저차원이 된다.
이러한 결과는 작은 초기화에 의해 유도되는 암묵적 정규화 효과를 보여준다.
Statistik
입력 데이터 개수 n개
데이터 분리 정도를 나타내는 척도 μ > 0