Core Concepts
Keine einzelne Federated-Learning-Methode ist in allen Leistungsmetriken überlegen. Die Algorithmen weisen unterschiedliche Stärken und Schwächen auf, die bei der Auswahl berücksichtigt werden müssen.
Abstract
Die Studie evaluiert umfassend die Leistung verschiedener Federated-Learning-Algorithmen (FedAvg, FedProx, FedYogi, FedAdam, SCAFFOLD, FedDyn) unter realistischen Bedingungen. Dabei werden nicht nur die Genauigkeit, sondern auch Rechenaufwand, Kommunikationskosten, Performanzstabilität über Clients und Trainingsstabilität untersucht.
Die Haupterkenntnisse sind:
Metriken basierend auf der Rundenzahl (z.B. Genauigkeit pro Runde) können irreführend sein, da sie den Rechenaufwand pro Runde vernachlässigen. FedDyn erreicht zwar die höchste Genauigkeit nach 100 Runden, benötigt dafür aber 57,9% mehr Zeit als FedAvg.
Die Rechenkosten der Algorithmen variieren stark je nach Hardware und Modellarchitektur. Komplexere Algorithmen wie FedDyn und SCAFFOLD haben deutlich höhere Laufzeiten als FedAvg, insbesondere auf weniger leistungsfähiger Hardware.
FedDyn erzielt die beste Performanzstabilität über die Clients hinweg. SCAFFOLD ist anfälliger für Klassenungleichgewichte in den Daten.
Ohne Gradientenclipping sind die komplexeren Algorithmen SCAFFOLD und FedDyn deutlich anfälliger für katastrophale Trainingsausfälle als einfachere Algorithmen.
Die Ergebnisse zeigen, dass es keinen "one-size-fits-all"-Algorithmus gibt und die Wahl vom jeweiligen Anwendungsfall und den Randbedingungen abhängt.
Stats
Der Rechenaufwand von FedDyn ist 252,90% höher als der von FedAvg bei Verwendung von ResNet34 auf einer CPU.
Bei Verwendung von LSTM-20 auf einer CPU ist FedDyn sogar 10,91% schneller als FedAvg.
SCAFFOLD kommuniziert doppelt so viel Daten pro Runde wie FedAvg.
Quotes
"Performance metrics based on round (such as accuracy-to-round, the accuracy achieved after a certain number of rounds) should be interpreted carefully. Such metrics suggest that the smaller number of rounds is indicative of high performance. This ignores the amount of computations (hence, the actual walk-clock time) needed for training."
"Client-side optimization algorithms are more vulnerable to catastrophic failures. As a means for testing, we conduct experiments by disabling gradient clipping. The experiment results in Table 2 show that as the dataset distribution becomes heterogeneous, SCAFFOLD and FedDyn experience more frequent failures while other algorithms experience no failure."