Core Concepts
Durch die Einführung von Shortcut-verbundenen MoE-Architekturen und einer adaptiven Überlappungsstrategie für Experten-Parallelismus können die Ausführungseffizienz von MoE-Modellen deutlich gesteigert werden, ohne dabei Qualitätseinbußen hinnehmen zu müssen.
Abstract
Der Artikel präsentiert zwei neuartige Shortcut-verbundene MoE-Architekturen, DGMoE und ScMoE, die die herkömmliche sequenzielle Abhängigkeit zwischen Kommunikation und Berechnung in verteilten MoE-Modellen aufbrechen.
DGMoE verwendet duale Top-1-Gating-Mechanismen, um die Repräsentationen der vorherigen und aktuellen Schichten unabhängig zu verwalten, wodurch die mit der vorherigen Schicht verbundene Kommunikation entkoppelt wird. ScMoE geht einen Schritt weiter und verarbeitet die Repräsentationen der aktuellen Schicht über einen dichten MLP-Modul, was die Notwendigkeit der Kommunikation der aktuellen Schicht-Repräsentationen vollständig eliminiert.
Um die Effizienz dieser Shortcut-verbundenen Architekturen weiter zu steigern, implementieren die Autoren eine adaptive Überlappungsstrategie, die Kommunikations- und Berechnungsoperationen asynchron ausführt und dynamisch auf Basis tatsächlicher Leistungskennzahlen plant.
Die umfangreichen Experimente zeigen, dass die vorgeschlagenen Methoden im Vergleich zu bestehenden Ansätzen eine deutliche Beschleunigung der Trainings- und Inferenzgeschwindigkeit von bis zu 40% bzw. 30% in kommunikationsintensiven Umgebungen erreichen, ohne Qualitätseinbußen hinnehmen zu müssen. Darüber hinaus bietet die Analyse der Shortcut-Repräsentationen und der Unterschiede zwischen Bild- und Sprachmodellen wertvolle Erkenntnisse für zukünftige Forschungsarbeiten.
Stats
Die Kommunikation macht etwa 60% der gesamten MoE-Zeit in einer 8×A30-PCIe-Umgebung aus.
Die Kommunikation macht etwa 15% der gesamten MoE-Zeit in einer 8×A800-NVLink-Umgebung aus.
Quotes
"Unser ScMoE-Modell zeigt eine Beschleunigung von 30% und 40% bei Training und Inferenz im Vergleich zum Standard-Top-2-MoE in der 8×A30-PCIe-Umgebung."
"Unser ScMoE-Modell zeigt eine Beschleunigung von 11% und 15% bei Training und Inferenz im Vergleich zum Standard-Top-2-MoE in der 8×A800-NVLink-Umgebung."