核心概念
Wir beweisen eine Konvergenzrate von O(√d/T^(1/4)) für RMSProp und seine Momentum-Erweiterung, gemessen am ℓ1-Norm, ohne die Annahme beschränkter Gradienten.
摘要
In dieser Arbeit betrachten wir das klassische RMSProp-Verfahren und seine Momentum-Erweiterung. Wir zeigen, dass beide Methoden eine Konvergenzrate von O(√d/T^(1/4)) erreichen, gemessen am ℓ1-Norm, ohne die Annahme beschränkter Gradienten oder stochastischer Gradienten.
Schlüsselpunkte des Beweises sind:
- Wir nutzen eine scharfe obere Schranke für den Fehlerterm, um eine enge Abhängigkeit von der Rauschvarianz σs zu erreichen.
- Wir zeigen, dass der Term Pd
i=1 PT
k=1 E[√e
vk
i] durch O(Tσs/√d + F/√dT) beschränkt werden kann, wobei der erste Term dominiert.
Unser Konvergenzresultat ist vergleichbar mit der Rate von SGD im idealen Fall ∥∇f(x)∥1 = Θ(√d∥∇f(x)∥2). Empirisch beobachten wir, dass diese Beziehung in gängigen tiefen neuronalen Netzen tatsächlich gilt.
统计
Die Konvergenzrate ist durch folgende Kenngrößen beschränkt:
√d/T^(1/4) * (4√(σ^2_sL(f(x_1) - f^)) + √d/√T * √(L(f(x_1) - f^*)))
引用
Keine relevanten Zitate identifiziert.