מושגי ליבה
그로킹 현상은 신경망이 학습 초기에는 훈련 데이터에 대한 손실을 빠르게 감소시키지만 일반화 성능은 늦게 향상되는 것을 의미한다. 이는 신경망이 초기에는 선형 모델 동역학(게으른 모드)을 따르다가 나중에 특징 학습 동역학(풍부한 모드)으로 전환되기 때문에 발생한다.
תקציר
이 연구에서는 그로킹 현상을 설명하기 위해 신경망 학습 동역학의 게으른 모드에서 풍부한 모드로의 전환 메커니즘을 제안한다. 이를 보여주기 위해 다항식 회귀 문제에 대한 간단한 설정을 연구했다.
- 초기에 신경망은 선형 모델 동역학(게으른 모드)을 따라 훈련 데이터에 대한 손실을 빠르게 감소시키지만, 일반화 성능은 향상되지 않는다.
- 나중에 신경망이 특징 학습 동역학(풍부한 모드)으로 전환되면서 일반화 성능이 향상된다.
- 이 전환 시점의 지연이 그로킹 현상을 야기한다.
- 이 전환 시점은 신경망 출력 스케일 α와 초기 신경 접선 커널(NTK)과 타겟 함수의 정렬 정도 ϵ에 의해 결정된다.
- 이러한 메커니즘은 MNIST, 변형기, 학생-교사 네트워크 등 다양한 설정에서도 관찰된다.
סטטיסטיקה
신경망 출력 스케일 α가 클수록 게으른 모드에 머무르는 시간이 길어져 그로킹이 더 두드러진다.
초기 NTK와 타겟 함수의 정렬 정도 ϵ이 낮을수록 게으른 모드에 머무르는 시간이 길어져 그로킹이 더 두드러진다.
ציטוטים
"그로킹은 신경망이 초기에는 선형 모델 동역학(게으른 모드)을 따르다가 나중에 특징 학습 동역학(풍부한 모드)으로 전환되기 때문에 발생한다."
"이 전환 시점은 신경망 출력 스케일 α와 초기 신경 접선 커널(NTK)과 타겟 함수의 정렬 정도 ϵ에 의해 결정된다."