이 논문은 두 층 ReLU 신경망의 학습 동적을 이론적으로 분석합니다. 주요 내용은 다음과 같습니다:
초기 정렬 단계에서 뉴런들이 특정 방향으로 정렬되는 현상을 설명합니다. 이는 네트워크가 훈련 데이터를 보간하지 않고 단순한 솔루션을 학습하게 만듭니다.
충분히 많은 훈련 데이터가 있을 때, 네트워크는 훈련 손실의 전역 최소값에 수렴하지 않고 대신 실제 손실을 최소화하는 솔루션에 수렴합니다. 이를 최적화 임계값이라고 부릅니다.
이러한 단순성 편향은 일반화 성능을 향상시킬 수 있습니다. 실험 결과는 이론적 분석을 뒷받침합니다.
요약하면, 과적합 없이 단순한 모델을 학습하는 것이 가능하며, 이는 최적화 임계값 이후에 나타나는 현상입니다. 이는 일반화 성능 향상에 도움이 될 수 있습니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문