그로킹 현상은 신경망이 학습 초기에는 훈련 데이터에 대한 손실을 빠르게 감소시키지만 일반화 성능은 늦게 향상되는 것을 의미한다. 이는 신경망이 초기에는 선형 모델 동역학(게으른 모드)을 따르다가 나중에 특징 학습 동역학(풍부한 모드)으로 전환되기 때문에 발생한다.