勾配降下法を用いてニューラルネットワークを学習させると、重みパラメータの初期スケールが十分大きければ、訓練損失をゼロに急速に収束させることができる。この遅延学習のレジームは、初期スケールが重要な役割を果たすことを示している。