Alapfogalmak
Die Mischungsverhältnisse der Trainingsdaten für große Sprachmodelle haben einen entscheidenden Einfluss auf deren Leistungsfähigkeit. Durch die Entdeckung quantitativer Gesetzmäßigkeiten zwischen Datenmischung und Modellleistung können diese Mischungsverhältnisse effizient optimiert werden.
Kivonat
Der Artikel untersucht die quantitative Vorhersagbarkeit der Modellleistung in Bezug auf die Datenmischung. Es wird festgestellt, dass sich die Verluste auf Validierungsdaten als Funktion der Domänenanteile in der Trainingsdatenmischung präzise beschreiben lassen. Diese sogenannten "Datenmischungsgesetze" ermöglichen es, die Leistung von Sprachmodellen auf ungesehenen Datenmischungen vorherzusagen, bevor diese tatsächlich trainiert werden.
Um die hohen Kosten für das Training großer Modelle auf verschiedenen Datenmischungen zu vermeiden, wird ein gestaffelter Ansatz vorgeschlagen, der die Skalierungsgesetze für Trainingsschritte, Modellgrößen und Datenmischung nutzt. Damit lässt sich die Leistung großer Modelle, die auf massiven Daten trainiert werden, aus kleinskaligen Experimenten vorhersagen.
Die Experimente zeigen, dass der Ansatz effektiv die Datenmischung für ein 1-Milliarden-Modell optimiert, das auf 100 Milliarden Token trainiert wird. Die optimierte Mischung erreicht eine vergleichbare Leistung wie das Standardmodell, das 48% mehr Trainingsschritte benötigt. Darüber hinaus ermöglicht die Anwendung der Datenmischungsgesetze auf kontinuierliches Vortraining die Vorhersage der kritischen Mischungsverhältnisse, die ein katastrophales Vergessen verhindern, und eröffnet Perspektiven für dynamische Datenpläne.
Statisztikák
Die Verluste auf den Validierungsdaten der einzelnen Domänen lassen sich als exponentielle Funktion der Domänenanteile in der Trainingsdatenmischung darstellen.
Durch Aggregation der domänenspezifischen Verluste kann die Gesamtverluste auf der Validierungsmischung vorhergesagt werden.
Für ein 1-Milliarden-Modell, das auf 100 Milliarden Token trainiert wird, erreicht die optimierte Datenmischung eine vergleichbare Leistung wie das Standardmodell, das 48% mehr Trainingsschritte benötigt.
Idézetek
"Fitting such functions on sample mixtures unveils model performance on unseen mixtures before actual runs, thus guiding the selection of an ideal data mixture."
"Nonetheless, it remains elusive to figure out an ideal training data mixture. Most existing practices tune the mixture through heuristics to upsample a proportion of high-quality or underrepresented data without disclosing the concrete criteria in detail."
"Encouraged by advances in scaling laws that show model losses on a given set of evaluation data are quantitatively predictable for a wide range of variables, we wonder whether this also holds for mixture proportions, so that we can estimate the outcome model performance given any mixture before actually training on them, including the desired one that reaches minimum loss."