Core Concepts
Lokale Updates können die Kommunikationskosten in dezentralisiertem Lernen unter bestimmten Bedingungen effektiv reduzieren, insbesondere wenn die Datenheterogenität gering und das Netzwerk gut verbunden ist.
Abstract
Die Studie untersucht die Auswirkungen von lokalen Updates auf die Kommunikations-Berechnungs-Abwägung in zwei dezentralisierten Optimierungsverfahren, dem Decentralized Gradient Tracking (DGT) und dem Decentralized Gradient Descent (DGD), unter Berücksichtigung von Datenheterogenität.
Für den Fall, dass die durchschnittliche Verlustfunktion f stark konvex ist, zeigt die Analyse des lokalen DGT-Algorithmus:
Wenn die Datenheterogenität gering und das Netzwerk gut verbunden ist, können mehr lokale Updates die Kommunikationskosten effektiv reduzieren.
Die Kommunikationskomplexität hängt von der Netzwerkkonnektivität und der Ähnlichkeit der lokalen Verlustfunktionen ab.
Für den Fall der Überparametrisierung, in dem die lokalen Verlustfunktionen mindestens ein gemeinsames Minimum haben, zeigt die Analyse des lokalen DGD-Algorithmus:
Auch hier kann eine Erhöhung der lokalen Updates die Kommunikationskosten senken, wenn die Datenheterogenität gering und das Netzwerk gut verbunden ist.
Die Kommunikationskomplexität hängt von der Netzwerkkonnektivität und der Ähnlichkeit der zweiten Ableitungen der lokalen Verlustfunktionen ab.
Numerische Experimente bestätigen die theoretischen Erkenntnisse und zeigen, dass lokale Updates in Szenarien mit geringer Heterogenität und guter Netzwerkverbindung effektiv sind, um die Kommunikationskosten zu reduzieren.
Stats
Die Kommunikationskomplexität des lokalen DGT-Algorithmus beträgt ˜O(L/µK + δ/µ(1-ρ) + ρ/(1-ρ)^2 · (L+δ)/µ), wobei L die Glattheit, µ die starke Konvexität, ρ die Netzwerkkonnektivität und δ die Heterogenität der zweiten Ableitungen der lokalen Verlustfunktionen beschreiben.
Die Kommunikationskomplexität des lokalen DGD-Algorithmus im Überparametrisierungsregime beträgt ˜O(L/µKζ + 1/(1-ρ) + (β+ρ^2L)/(µ(1-ρ)^2ζ^2)), wobei ζ ein Maß für die Ähnlichkeit der lokalen Verlustfunktionen ist und β die schwache Konvexität der durchschnittlichen Verlustfunktion f beschreibt.
Quotes
Keine relevanten Zitate identifiziert.