Eine quadratische Synchronisationsregel für verteiltes Deep Learning
Eine neue Methode, die Quadratische Synchronisationsregel (QSR), wird vorgestellt, um die Kommunikationseffizienz und Generalisierungsleistung von verteilten Deep-Learning-Methoden wie Local SGD und Local AdamW zu verbessern.