Überraschende Dichotomie von impliziten Verzerrungen in frühen und späten Phasen kann nachweislich Grokking induzieren
Eine Dichotomie von impliziten Verzerrungen in frühen und späten Phasen des Trainingsprozesses kann zu einem überraschenden Grokking-Phänomen führen, bei dem neuronale Netze zunächst die Trainingsdaten perfekt memorieren, aber dann plötzlich eine perfekte Generalisierung auf Testdaten erreichen.