核心概念
Grokking, ein Phänomen, bei dem Modelle nach anfänglich schlechter Leistung auf dem Validierungssatz plötzlich eine ähnlich gute Leistung wie auf dem Trainingssatz erreichen, tritt nicht nur in neuronalen Netzwerken, sondern auch in anderen Modellklassen wie Gauß-Prozessen und linearen Regressionen auf. Darüber hinaus kann Grokking durch eine Datenerweiterungstechnik, die wir als "Verheimlichung" bezeichnen, induziert werden.
摘要
Die Studie untersucht das Grokking-Phänomen, bei dem Modelle nach anfänglich schlechter Leistung auf dem Validierungssatz plötzlich eine ähnlich gute Leistung wie auf dem Trainingssatz erreichen. Im Gegensatz zu bisherigen Studien, die sich hauptsächlich auf neuronale Netzwerke konzentrierten, zeigt diese Arbeit, dass Grokking auch in Gauß-Prozessen und linearen Regressionen auftritt.
Zunächst wird das Grokking-Phänomen in GP-Klassifikation und linearer Regression demonstriert. Dabei wird deutlich, dass Grokking nicht auf neuronale Architekturen beschränkt ist, sondern in Modellen auftritt, in denen die Suche nach einer Lösung durch Komplexität und Fehler geleitet wird.
Anschließend wird eine Datenerweiterungstechnik, die "Verheimlichung", vorgestellt, die Grokking in einer Reihe algorithmischer Datensätze induzieren kann. Die Ergebnisse zeigen, dass die Grokking-Lücke exponentiell mit der Anzahl der hinzugefügten Dimensionen zunimmt.
Schließlich wird ein Mechanismus für Grokking vorgeschlagen, der auf der Annahme basiert, dass die Suche nach einer Lösung durch Komplexität und Fehler geleitet wird. Dieser Mechanismus ist mit den neuen empirischen Erkenntnissen sowie früheren Theorien und Beobachtungen zum Grokking-Phänomen konsistent.
統計資料
Die Hinzufügung von 10 zusätzlichen Dimensionen erhöht die Grokking-Lücke um etwa das 10-fache.
Bei der linearen Regression wurde ein Initialisierungsschema verwendet, bei dem die Gewichte stark gegen die erste Eingabedimension gewichtet waren.
In den GP-Klassifikationsexperimenten wurde eine Kernelfunktion mit Radial-Basis-Funktion verwendet.
引述
"Grokking ist nicht auf neuronale Netzwerke beschränkt, sondern tritt auch in anderen Modellklassen wie Gauß-Prozessen und linearen Regressionen auf."
"Die Hinzufügung von zusätzlichen, uninformativen Dimensionen zu den Eingabedaten kann Grokking induzieren, wobei die Grokking-Lücke exponentiell mit der Anzahl der zusätzlichen Dimensionen zunimmt."
"Der vorgeschlagene Mechanismus für Grokking besagt, dass die Suche nach einer Lösung durch Komplexität und Fehler geleitet wird und ist mit den neuen empirischen Erkenntnissen sowie früheren Theorien und Beobachtungen zum Grokking-Phänomen konsistent."