Hierarchisches SGD (H-SGD) kann die globale Konvergenz durch lokale Aggregation verbessern, indem es die Auswirkungen der Datenheterogenität zwischen Gruppen und innerhalb von Gruppen kontrolliert.
In diesem Artikel wird ein verteilter oberer Konfidenzband-Algorithmus (DiSC-UCB) für das Problem des konservativen verteilten Lernens mehrerer Aufgaben in stochastischen linearen kontextuellen Banditen mit heterogenen Agenten vorgestellt. Der Algorithmus konstruiert einen beschnittenen Aktionsraum, um sicherzustellen, dass die Beschränkungen eingehalten werden, und umfasst synchronisierte Schätzungsfreigabe zwischen Agenten über einen zentralen Server.
Die Autoren stellen eine neuartige Methode namens globale Momentumkompression (GMC) vor, die globales Momentum für spärliche Kommunikation in verteiltem Lernen nutzt. GMC überwindet die Nachteile bestehender Methoden, die nur lokales Momentum verwenden. Die Autoren zeigen theoretisch und empirisch, dass GMC eine höhere Testgenauigkeit und schnellere Konvergenz, insbesondere unter nicht-IID-Datenverteilung, erreichen kann.
Effiziente Approximationsalgorithmen für 1-Center- und 1-Mean-Clustering mit Ausreißern bieten nahezu optimale Garantien für robuste Aggregationsregeln in verteiltem Lernen.
DISTFLASHATTN ist ein verteilter, speichereffizienter und exakter Aufmerksamkeitsmechanismus, der Techniken wie lastausgewogene Planung, überlappende Kommunikation und Berechnung sowie ein rematerialisierungsbewusstes Gradientenabspeichern nutzt, um das Training von Transformator-basierten Sprachmodellen mit langem Kontext zu beschleunigen.
Distributed Lion ist ein innovativer Ansatz, um den Lion-Optimierer für verteiltes Training zu nutzen. Durch die Verwendung des Vorzeichen-Operators in Lion können Distributed Lion-Arbeiter nur binäre oder niedrigpräzise Vektoren zwischen Arbeitern und dem Zentralserver übertragen, was die Kommunikationskosten erheblich reduziert.
TACOS, ein automatisierter Synthesizer, generiert topologiebewusste Kollektiv-Algorithmen für gängige verteilte maschinelle Lernkollektive über beliebige Eingangsnetzwerktopologien. TACOS kann skalierbare und leistungsfähige Kollektiv-Algorithmen für große, heterogene und asymmetrische Systeme mit bis zu 40.000 NPUs in wenigen Stunden synthetisieren.
Ein neues Verfahren, das für hochdimensionale Probleme unter einer beliebigen Anzahl von byzantinischen Angreifern geeignet ist. Der Kern des Designs ist eine direkte hochdimensionale semi-verifizierte Mittelwertschätzung.
Die simultane Kompression von Aktivierungen und Gradienten in modellparallelem Training kann die Konvergenz beeinflussen. Quantisierung und TopK-Kompression zeigen, dass Gradienten empfindlicher auf Kompression reagieren als Aktivierungen. Fehlerrückkopplungstechniken können die Modellqualität bei komprimierter Inferenz verbessern, verbessern aber nicht die Konvergenz im modellparallelen Setup.
Der Kerngedanke ist, eine kommunikationseffiziente und robuste verteilte Lernmethode für heterogene Rechenkapazitäten der Geräte zu entwickeln. Dies wird durch den Einsatz von lernbaren Gewichten beim Mehrheitsvotum für die Gradientenaggreagation erreicht, um die Geräte mit hoher Rechenleistung, insbesondere mit großen Mini-Batch-Größen, zu priorisieren.