The authors analyze the convergence of distributed momentum methods under biased gradient estimations, providing non-asymptotic bounds for general non-convex and µ-PL non-convex problems.
Momentum-Methoden zeigen überlegene Leistung gegenüber SGD unter verzerrten Gradientenschätzungen.