In dieser Arbeit betrachten wir das klassische RMSProp-Verfahren und seine Momentum-Erweiterung. Wir zeigen, dass beide Methoden eine Konvergenzrate von O(√d/T^(1/4)) erreichen, gemessen am ℓ1-Norm, ohne die Annahme beschränkter Gradienten oder stochastischer Gradienten.
Schlüsselpunkte des Beweises sind:
Unser Konvergenzresultat ist vergleichbar mit der Rate von SGD im idealen Fall ∥∇f(x)∥1 = Θ(√d∥∇f(x)∥2). Empirisch beobachten wir, dass diese Beziehung in gängigen tiefen neuronalen Netzen tatsächlich gilt.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Huan Li,Zhou... às arxiv.org 04-12-2024
https://arxiv.org/pdf/2402.00389.pdfPerguntas Mais Profundas