Dieser Artikel stellt Adapprox, einen neuartigen Optimierer, vor, der darauf abzielt, die Herausforderungen des hohen Speicherverbrauchs beim Training großer Modelle zu bewältigen. Adapprox verwendet randomisierte niedrigrangige Matrixapproximation, um den zweiten Moment des Adam-Optimierers effizient zu komprimieren, ohne die Genauigkeit zu beeinträchtigen.
Der Artikel beginnt mit einer Übersicht über den Adam-Optimierer und erläutert dann die Verwendung von randomisierter niedrigrangiger Matrixapproximation, um den Speicherverbrauch zu reduzieren. Es wird ein adaptiver Rangsauswahlmechanismus vorgestellt, der die Genauigkeit und Speichereffizienz ausbalanciert. Außerdem wird eine optionale Kosinussimilaritätssteuerungsstrategie eingeführt, um die Stabilität und Konvergenzgeschwindigkeit zu verbessern.
Die Leistungsbewertung von Adapprox umfasst das Training von GPT-2-Modellen der Größen 117M und 345M sowie die Evaluierung auf verschiedenen Downstream-Aufgaben. Die Ergebnisse zeigen, dass Adapprox im Vergleich zu AdamW, Adafactor und CAME erhebliche Speichereinsparungen von 33,8% bis 49,9% bei gleichzeitiger Beibehaltung oder sogar Verbesserung der Leistung erzielt. Darüber hinaus bietet Adapprox eine flexible Möglichkeit, den Kompromiss zwischen Speichereffizienz und Genauigkeit anzupassen.
A otro idioma
del contenido fuente
arxiv.org
Consultas más profundas