넓은 신경망을 효과적으로 학습시키기 위해서는 학습률과 초기 가중치 크기와 같은 하이퍼파라미터를 선택할 때 단 하나의 자유도만 존재한다. 이 자유도는 학습 행동의 풍부함을 조절한다: 최소한 커널 기계와 같이 게으르게 학습하거나, 최대한 $μ$P 체제와 같이 특징 학습을 한다.