核心概念
Eine einfache und skalierbare Kombination aus Lernraten-Aufwärmung, Lernraten-Reduzierung und Replay früherer Daten ermöglicht es, kontinuierlich vortrainierte Sprachmodelle zu erhalten, deren Leistung mit der von komplett neu trainierten Modellen vergleichbar ist, bei deutlich geringerem Rechenaufwand.
要約
Die Studie untersucht effiziente Strategien zum kontinuierlichen Vortrainieren großer Sprachmodelle (LLMs) auf großen Datensätzen (Hunderte Milliarden Token). Die Autoren zeigen, dass eine einfache Kombination aus Lernraten-Aufwärmung, Lernraten-Reduzierung und Replay früherer Daten ausreicht, um die Leistung von komplett neu trainierten Modellen zu erreichen, bei deutlich geringerem Rechenaufwand.
Konkret werden zwei Szenarien mit schwacher und starker Verteilungsverschiebung zwischen Trainings-Datensätzen untersucht, sowohl für kleine (405M Parameter) als auch große (10B Parameter) Modelle. Die Ergebnisse zeigen, dass die vorgeschlagenen Techniken es ermöglichen, die Leistung der Baseline-Modelle, die auf der Vereinigung aller Datensätze trainiert wurden, zu erreichen, bei nur einem Bruchteil des Rechenaufwands.
Darüber hinaus schlagen die Autoren alternative Lernraten-Schedules vor, die das durch Lernraten-Aufwärmung induzierte Vergessen umgehen und nicht an ein festes Token-Budget gebunden sind.
統計
Die Pile-Datenmenge umfasst etwa 330 Milliarden Token, wovon in den Experimenten 300 Milliarden Token verwendet werden.
Die SlimPajama-Datenmenge umfasst etwa 606 Milliarden Token, wovon in den Experimenten 299 Milliarden Token verwendet werden.
Die German Common Crawl-Datenmenge umfasst etwa 195 Milliarden Token.
引用
"Eine einfache und skalierbare Kombination aus Lernraten-Aufwärmung, Lernraten-Reduzierung und Replay früherer Daten ist ausreichend, um die Leistung von komplett neu trainierten Modellen zu erreichen, bei deutlich geringerem Rechenaufwand."
"Inspiriert von früheren Arbeiten schlagen wir Alternativen zu dem üblichen Kosinus-Lernratenschema vor, die das durch Lernraten-Aufwärmung induzierte Vergessen umgehen und nicht an ein festes Token-Budget gebunden sind."