In dieser Arbeit betrachten wir das klassische RMSProp-Verfahren und seine Momentum-Erweiterung. Wir zeigen, dass beide Methoden eine Konvergenzrate von O(√d/T^(1/4)) erreichen, gemessen am ℓ1-Norm, ohne die Annahme beschränkter Gradienten oder stochastischer Gradienten.
Schlüsselpunkte des Beweises sind:
Unser Konvergenzresultat ist vergleichbar mit der Rate von SGD im idealen Fall ∥∇f(x)∥1 = Θ(√d∥∇f(x)∥2). Empirisch beobachten wir, dass diese Beziehung in gängigen tiefen neuronalen Netzen tatsächlich gilt.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Huan Li,Zhou... om arxiv.org 04-12-2024
https://arxiv.org/pdf/2402.00389.pdfDiepere vragen