Der Artikel untersucht das Grokking-Phänomen in theoretischen Setups und zeigt, dass es durch eine Dichotomie von impliziten Verzerrungen in frühen und späten Phasen des Trainingsprozesses induziert werden kann.
Konkret wird gezeigt, dass beim Training homogener neuronaler Netze mit großer Initialisierung und kleinem Gewichtsverfall sowohl für Klassifikations- als auch für Regressionsprobleme der Trainingsprozess zunächst in einer Lösung hängen bleibt, die einem Kernel-Prädiktor entspricht. Nach einer sehr scharfen Übergangsphase konvergiert der Gradient Flow dann jedoch zu min-Norm/max-Margin-Prädiktoren, was zu einem dramatischen Wechsel in der Testgenauigkeit führt.
Die Autoren liefern konkrete Beispiele für dieses Verhalten bei linearer Klassifikation mit diagonalen linearen Netzen und bei Matrixergänzung mit überparametrisierten Modellen. Darüber hinaus zeigen sie, dass das umgekehrte Phänomen, das "Misgrokking" genannt wird, ebenfalls auftreten kann, wenn die frühe und späte Phase implizite Verzerrungen in die entgegengesetzte Richtung induzieren.
翻譯成其他語言
從原文內容
arxiv.org
深入探究