Core Concepts
Durch den Einsatz leichterer Modelle und effizienterer Hardware können die CO2-Emissionen beim Training von Großen Sprachmodellen deutlich reduziert werden, ohne dabei Leistung und Robustheit zu opfern.
Abstract
Die Studie untersucht verschiedene Strategien, um die CO2-Emissionen beim Training von Großen Sprachmodellen (LLMs) zu senken, ohne dabei Leistung und Robustheit zu beeinträchtigen. Dafür wurden drei bekannte Transformer-Modelle (BERT, DistilBERT und T5) mit unterschiedlichen Tokenizern auf dem SQUAD-Datensatz trainiert und hinsichtlich Validierungsverlust, Trainingszeit, CO2-Emissionen und Modellparametern analysiert.
Die Ergebnisse zeigen, dass der Einsatz des leichteren DistilBERT-Modells mit dem distilbert-base-uncased-Tokenizer im Vergleich zu BERT mit dem bert-base-cased-Tokenizer zu einer Reduzierung der CO2-Emissionen um 46,9% führt, ohne dabei Leistungseinbußen hinnehmen zu müssen. Stattdessen konnte sogar eine Verbesserung der Validierungsverluste um 54,5% erzielt werden.
Darüber hinaus wurde deutlich, dass der Wechsel von der T4- zur leistungsfähigeren A100-GPU die Trainingszeit um durchschnittlich 62,6% und die CO2-Emissionen um 83% senken kann, ohne die Modellleistung zu beeinträchtigen.
Insgesamt zeigt die Studie, dass durch den Einsatz leichterer Modelle und effizienterer Hardware die Umweltbelastung beim Training von LLMs deutlich reduziert werden kann, ohne dabei Abstriche bei der Modellperformance machen zu müssen. Allerdings müssen hierbei auch die höheren Kosten für die leistungsfähigere Hardware berücksichtigt werden, um die Umsetzbarkeit für Einzelpersonen zu gewährleisten.
Stats
Das BERT-Modell mit bert-base-cased-Tokenizer produzierte 1,18 kg CO2 beim Training auf der T4-GPU.
Das DistilBERT-Modell mit distilbert-base-uncased-Tokenizer produzierte nur 0,0628 kg CO2 beim Training auf der T4-GPU.
Der Wechsel von der T4- zur A100-GPU reduzierte die CO2-Emissionen des BERT-Modells mit bert-base-cased-Tokenizer um 67,2% und des DistilBERT-Modells mit distilbert-base-uncased-Tokenizer um 99,7%.
Quotes
"Durch den Einsatz leichterer Modelle und effizienterer Hardware können die CO2-Emissionen beim Training von Großen Sprachmodellen deutlich reduziert werden, ohne dabei Leistung und Robustheit zu opfern."
"Das DistilBERT-Modell mit distilbert-base-uncased-Tokenizer senkte die Trainingszeit um 46% und den Validierungsverlust um 54,5% im Vergleich zum BERT-Modell mit bert-base-cased-Tokenizer."