Dieser Artikel stellt Adapprox, einen neuartigen Optimierer, vor, der darauf abzielt, die Herausforderungen des hohen Speicherverbrauchs beim Training großer Modelle zu bewältigen. Adapprox verwendet randomisierte niedrigrangige Matrixapproximation, um den zweiten Moment des Adam-Optimierers effizient zu komprimieren, ohne die Genauigkeit zu beeinträchtigen.
Der Artikel beginnt mit einer Übersicht über den Adam-Optimierer und erläutert dann die Verwendung von randomisierter niedrigrangiger Matrixapproximation, um den Speicherverbrauch zu reduzieren. Es wird ein adaptiver Rangsauswahlmechanismus vorgestellt, der die Genauigkeit und Speichereffizienz ausbalanciert. Außerdem wird eine optionale Kosinussimilaritätssteuerungsstrategie eingeführt, um die Stabilität und Konvergenzgeschwindigkeit zu verbessern.
Die Leistungsbewertung von Adapprox umfasst das Training von GPT-2-Modellen der Größen 117M und 345M sowie die Evaluierung auf verschiedenen Downstream-Aufgaben. Die Ergebnisse zeigen, dass Adapprox im Vergleich zu AdamW, Adafactor und CAME erhebliche Speichereinsparungen von 33,8% bis 49,9% bei gleichzeitiger Beibehaltung oder sogar Verbesserung der Leistung erzielt. Darüber hinaus bietet Adapprox eine flexible Möglichkeit, den Kompromiss zwischen Speichereffizienz und Genauigkeit anzupassen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Peng... alle arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.14958.pdfDomande più approfondite