Dieses Papier präsentiert ein theoretisches Modell, das viele beobachtete Phänomene bei neuronalen Skalierungsgesetzen erklärt. Das Modell analysiert ein zufälliges Merkmalmodell, das mit Gradientenabstieg trainiert wird.
Zunächst sagt das Modell vorher, warum die Skalierung der Leistung mit Trainingszeit und Modellgröße unterschiedliche Potenzfunktionsexponenten aufweisen. Dies führt zu einer asymmetrischen berechungsoptimalen Skalierungsstrategie, bei der die Zahl der Trainingsschritte schneller als die Modellparameter erhöht wird, was mit aktuellen empirischen Beobachtungen übereinstimmt.
Außerdem zeigt das Modell, wie sich die Lücke zwischen Trainings- und Testverlusten im Laufe der Zeit aufgrund der wiederholten Verwendung von Daten allmählich aufbaut. Darüber hinaus demonstriert die Theorie, wie die Skalierungsexponenten von der Aufgabe abhängen, insbesondere in der späten Trainingsphase, aber nicht in der frühen Phase.
Schließlich erklärt das Modell, warum das Ensemblieren nicht die gleichen Vorteile wie eine Erhöhung der Modellgröße bringt, da es die Verzerrung nicht in dem Maße reduziert wie eine größere Modellgröße.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Blake Bordel... at arxiv.org 04-15-2024
https://arxiv.org/pdf/2402.01092.pdfDeeper Inquiries