In dieser Arbeit betrachten wir das klassische RMSProp-Verfahren und seine Momentum-Erweiterung. Wir zeigen, dass beide Methoden eine Konvergenzrate von O(√d/T^(1/4)) erreichen, gemessen am ℓ1-Norm, ohne die Annahme beschränkter Gradienten oder stochastischer Gradienten.
Schlüsselpunkte des Beweises sind:
Unser Konvergenzresultat ist vergleichbar mit der Rate von SGD im idealen Fall ∥∇f(x)∥1 = Θ(√d∥∇f(x)∥2). Empirisch beobachten wir, dass diese Beziehung in gängigen tiefen neuronalen Netzen tatsächlich gilt.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Huan Li,Zhou... lúc arxiv.org 04-12-2024
https://arxiv.org/pdf/2402.00389.pdfYêu cầu sâu hơn