Effiziente Skalierung des Trainings von Großen Sprachmodellen durch Optimierung der Kommunikationskosten von ZeRO
AMSP ist ein System, das die Kommunikationskosten von ZeRO für das effiziente Training von Großen Sprachmodellen in großem Maßstab reduziert, indem es flexible Sharding-Strategien für Modellparameter, Gradienten und Optimierungszustände einsetzt.