In dieser Arbeit betrachten wir das klassische RMSProp-Verfahren und seine Momentum-Erweiterung. Wir zeigen, dass beide Methoden eine Konvergenzrate von O(√d/T^(1/4)) erreichen, gemessen am ℓ1-Norm, ohne die Annahme beschränkter Gradienten oder stochastischer Gradienten.
Schlüsselpunkte des Beweises sind:
Unser Konvergenzresultat ist vergleichbar mit der Rate von SGD im idealen Fall ∥∇f(x)∥1 = Θ(√d∥∇f(x)∥2). Empirisch beobachten wir, dass diese Beziehung in gängigen tiefen neuronalen Netzen tatsächlich gilt.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Huan Li,Zhou... kl. arxiv.org 04-12-2024
https://arxiv.org/pdf/2402.00389.pdfDybere Forespørgsler