Ein dynamisches Modell neuronaler Skalierungsgesetze
Unser Modell sagt vorher, warum die Skalierung der Leistung mit der Trainingszeit und der Modellgröße unterschiedliche Potenzfunktionsexponenten aufweisen. Dies führt zu einer asymmetrischen berechungsoptimalen Skalierungsregel, bei der die Zahl der Trainingsschritte schneller als die Modellparameter erhöht wird, was mit aktuellen empirischen Beobachtungen übereinstimmt.