Основні поняття
Eine neue Methode, die Quadratische Synchronisationsregel (QSR), wird vorgestellt, um die Kommunikationseffizienz und Generalisierungsleistung von verteilten Deep-Learning-Methoden wie Local SGD und Local AdamW zu verbessern.
Анотація
Der Artikel präsentiert eine neue Methode namens Quadratische Synchronisationsregel (QSR), um die Kommunikationseffizienz und Generalisierungsleistung von verteilten Deep-Learning-Methoden wie Local SGD und Local AdamW zu verbessern.
Kernpunkte:
- Verteiltes Deep Learning mit Datenparallelität erfordert häufige Gradientensynchronisation, was zu hohem Kommunikationsaufwand führt.
- Local-Gradient-Methoden wie Local SGD und Local AdamW reduzieren den Kommunikationsaufwand, indem sie die Synchronisation nach mehreren lokalen Trainingsschritten durchführen.
- Die Wahl der Synchronisationsperiode H ist entscheidend: Ein zu großes H kann die Optimierung beeinträchtigen, während ein zu kleines H den Kommunikationsaufwand nicht ausreichend reduziert.
- Die Quadratische Synchronisationsregel (QSR) schlägt vor, H proportional zu η^-2 zu wählen, wobei η die Lernrate ist. Dies basiert auf theoretischen Erkenntnissen, dass diese Skalierung die Krümmung der Verlustlandschaft schneller reduziert und so die Generalisierung verbessert.
- Experimente auf ImageNet mit ResNet-152 und ViT-B zeigen, dass QSR die Testgenauigkeit im Vergleich zu anderen Synchronisationsstrategien konsistent verbessert, während der Kommunikationsaufwand deutlich reduziert wird.
- QSR ermöglicht es, die Trainingszeit von Local AdamW auf ViT-B von 26,7 auf 20,2 Stunden auf 16 GPUs oder von 8,6 auf 5,5 Stunden auf 64 GPUs zu verkürzen, bei gleichzeitig höherer Testgenauigkeit.
Статистика
Die Kommunikationszeit macht bei parallelem SGD/AdamW 15,9% bzw. 27,3% der Gesamttrainingszeit aus.
QSR reduziert den Kommunikationsanteil auf 3,9% bzw. 4,0% der Gesamtzeit für ResNet-152 bzw. ViT-B auf 2x8 GPUs.
Auf 8x8 GPUs reduziert QSR den Kommunikationsanteil von 22,8% auf 6,4% für ResNet-152 und von 43,0% auf 7,5% für ViT-B.
Цитати
"Frequent gradient synchronization can induce huge communication overhead as the number of workers and model size grow, severely hindering the scalability of distributed training."
"It has also been long known that the choice of optimizers or hyperparameters can change not only the optimization speed of the training loss but also their implicit bias towards solutions with different test accuracies."