核心概念
Effiziente Großskaleneffizienz durch Disaggregated Multi-Tower (DMT) für Empfehlungssysteme.
摘要
ABSTRACT
Mismatch zwischen Deep Learning Empfehlungsmodellen und Datenzentrumstopologie.
Disaggregated Multi-Tower (DMT) als Lösung.
DMT ermöglicht bis zu 1,9-fache Beschleunigung ohne Genauigkeitsverlust.
EINLEITUNG
Empfehlungsmodelle spielen eine entscheidende Rolle in Online-Diensten.
Verwendung von neuronalen Netzwerken mit Milliarden bis Billionen Parametern.
HERAUSFORDERUNGEN DES TRAININGS VON GROSSSKALEN-EMPFEHLUNGSMODELLEN
Kommunikationsflaschenhals bei globaler Embedding-Verteilung.
Divergenz von Modellarchitektur, Trainingsparadigma und Datenzentrumstopologie.
INEFFECTIVENESS OF EXISTING SOLUTIONS
Vorschläge wie Piper, Alpa, Megatron und ZeRo konnten das Problem nicht lösen.
Hybrid-Parallelismus als nahezu optimale Konfiguration.
DISAGGREGATED MULTI-TOWER
DMT nutzt die Heterogenität im Datenzentrum für Effizienzsteigerungen.
Drei Hauptkonzepte: Semantic-Preserving Tower Transform, Tower Module, Tower Partitioner.
統計資料
DMT kann bis zu 1,9-fache Beschleunigung erreichen.
Peak FP Perf: H100 - 989 TF/s, Scale-out/GPU - 400 Gbps.
引述
"Die ineffiziente Kommunikation von Embedding-Lookup-Anfragen und -Antworten ist der Flaschenhals des Trainings von Empfehlungsmodellen."
"Der aktuelle Hybrid-Parallelismus stellt eine nahezu optimale Konfiguration im bekannten Parallelismus-Suchraum dar."