Der Artikel untersucht die quantitative Vorhersagbarkeit der Modellleistung in Bezug auf die Datenmischung. Es wird festgestellt, dass sich die Verluste auf Validierungsdaten als Funktion der Domänenanteile in der Trainingsdatenmischung präzise beschreiben lassen. Diese sogenannten "Datenmischungsgesetze" ermöglichen es, die Leistung von Sprachmodellen auf ungesehenen Datenmischungen vorherzusagen, bevor diese tatsächlich trainiert werden.
Um die hohen Kosten für das Training großer Modelle auf verschiedenen Datenmischungen zu vermeiden, wird ein gestaffelter Ansatz vorgeschlagen, der die Skalierungsgesetze für Trainingsschritte, Modellgrößen und Datenmischung nutzt. Damit lässt sich die Leistung großer Modelle, die auf massiven Daten trainiert werden, aus kleinskaligen Experimenten vorhersagen.
Die Experimente zeigen, dass der Ansatz effektiv die Datenmischung für ein 1-Milliarden-Modell optimiert, das auf 100 Milliarden Token trainiert wird. Die optimierte Mischung erreicht eine vergleichbare Leistung wie das Standardmodell, das 48% mehr Trainingsschritte benötigt. Darüber hinaus ermöglicht die Anwendung der Datenmischungsgesetze auf kontinuierliches Vortraining die Vorhersage der kritischen Mischungsverhältnisse, die ein katastrophales Vergessen verhindern, und eröffnet Perspektiven für dynamische Datenpläne.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Jiasheng Ye,... : arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16952.pdfDaha Derin Sorular