작은 초기화를 가진 두 층 ReLU 네트워크에서 뉴런들은 초기 학습 단계에서 입력 데이터의 양성 또는 음성 클러스터에 정렬되며, 이후 손실 함수가 빠르게 수렴하고 첫 번째 층의 가중치 행렬이 저차원이 된다.