Die Studie untersucht das Grokking-Phänomen, bei dem Modelle nach anfänglich schlechter Leistung auf dem Validierungssatz plötzlich eine ähnlich gute Leistung wie auf dem Trainingssatz erreichen. Im Gegensatz zu bisherigen Studien, die sich hauptsächlich auf neuronale Netzwerke konzentrierten, zeigt diese Arbeit, dass Grokking auch in Gauß-Prozessen und linearen Regressionen auftritt.
Zunächst wird das Grokking-Phänomen in GP-Klassifikation und linearer Regression demonstriert. Dabei wird deutlich, dass Grokking nicht auf neuronale Architekturen beschränkt ist, sondern in Modellen auftritt, in denen die Suche nach einer Lösung durch Komplexität und Fehler geleitet wird.
Anschließend wird eine Datenerweiterungstechnik, die "Verheimlichung", vorgestellt, die Grokking in einer Reihe algorithmischer Datensätze induzieren kann. Die Ergebnisse zeigen, dass die Grokking-Lücke exponentiell mit der Anzahl der hinzugefügten Dimensionen zunimmt.
Schließlich wird ein Mechanismus für Grokking vorgeschlagen, der auf der Annahme basiert, dass die Suche nach einer Lösung durch Komplexität und Fehler geleitet wird. Dieser Mechanismus ist mit den neuen empirischen Erkenntnissen sowie früheren Theorien und Beobachtungen zum Grokking-Phänomen konsistent.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Jack Miller,... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2310.17247.pdfสอบถามเพิ่มเติม