Die Studie untersucht effiziente Strategien zum kontinuierlichen Vortrainieren großer Sprachmodelle (LLMs) auf großen Datensätzen (Hunderte Milliarden Token). Die Autoren zeigen, dass eine einfache Kombination aus Lernraten-Aufwärmung, Lernraten-Reduzierung und Replay früherer Daten ausreicht, um die Leistung von komplett neu trainierten Modellen zu erreichen, bei deutlich geringerem Rechenaufwand.
Konkret werden zwei Szenarien mit schwacher und starker Verteilungsverschiebung zwischen Trainings-Datensätzen untersucht, sowohl für kleine (405M Parameter) als auch große (10B Parameter) Modelle. Die Ergebnisse zeigen, dass die vorgeschlagenen Techniken es ermöglichen, die Leistung der Baseline-Modelle, die auf der Vereinigung aller Datensätze trainiert wurden, zu erreichen, bei nur einem Bruchteil des Rechenaufwands.
Darüber hinaus schlagen die Autoren alternative Lernraten-Schedules vor, die das durch Lernraten-Aufwärmung induzierte Vergessen umgehen und nicht an ein festes Token-Budget gebunden sind.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania