核心概念
Unser Modell sagt vorher, warum die Skalierung der Leistung mit der Trainingszeit und der Modellgröße unterschiedliche Potenzfunktionsexponenten aufweisen. Dies führt zu einer asymmetrischen berechungsoptimalen Skalierungsregel, bei der die Zahl der Trainingsschritte schneller als die Modellparameter erhöht wird, was mit aktuellen empirischen Beobachtungen übereinstimmt.
摘要
Dieses Papier präsentiert ein theoretisches Modell, das viele beobachtete Phänomene bei neuronalen Skalierungsgesetzen erklärt. Das Modell analysiert ein zufälliges Merkmalmodell, das mit Gradientenabstieg trainiert wird.
Zunächst sagt das Modell vorher, warum die Skalierung der Leistung mit Trainingszeit und Modellgröße unterschiedliche Potenzfunktionsexponenten aufweisen. Dies führt zu einer asymmetrischen berechungsoptimalen Skalierungsstrategie, bei der die Zahl der Trainingsschritte schneller als die Modellparameter erhöht wird, was mit aktuellen empirischen Beobachtungen übereinstimmt.
Außerdem zeigt das Modell, wie sich die Lücke zwischen Trainings- und Testverlusten im Laufe der Zeit aufgrund der wiederholten Verwendung von Daten allmählich aufbaut. Darüber hinaus demonstriert die Theorie, wie die Skalierungsexponenten von der Aufgabe abhängen, insbesondere in der späten Trainingsphase, aber nicht in der frühen Phase.
Schließlich erklärt das Modell, warum das Ensemblieren nicht die gleichen Vorteile wie eine Erhöhung der Modellgröße bringt, da es die Verzerrung nicht in dem Maße reduziert wie eine größere Modellgröße.
统计
Die Testleistung skaliert als Potenzfunktion der Trainingszeit t mit Exponent rt.
Die Testleistung skaliert als Potenzfunktion der Modellgröße N mit Exponent rN.
Die berechungsoptimale Skalierungsstrategie erfordert, dass die Trainingszeit t schneller als die Modellgröße N skaliert, mit t ∝ C^(b/(b+1)) und N ∝ C^(1/(b+1)), wobei C das Rechenbudget ist.
引用
"Unser Modell sagt vorher, warum die Skalierung der Leistung mit der Trainingszeit und der Modellgröße unterschiedliche Potenzfunktionsexponenten aufweisen."
"Dies führt zu einer asymmetrischen berechungsoptimalen Skalierungsregel, bei der die Zahl der Trainingsschritte schneller als die Modellparameter erhöht wird, was mit aktuellen empirischen Beobachtungen übereinstimmt."
"Das Modell erklärt, warum das Ensemblieren nicht die gleichen Vorteile wie eine Erhöhung der Modellgröße bringt, da es die Verzerrung nicht in dem Maße reduziert wie eine größere Modellgröße."