Die Studie untersucht die Konvergenzraten des Adam-Optimierers und des SGDM unter der Annahme der (L0, L1)-Glattheit.
Im deterministischen Umfeld zeigt sich, dass Adam eine Konvergenzrate erreichen kann, die mit der bekannten unteren Schranke für deterministische Optimierer erster Ordnung übereinstimmt. Im Gegensatz dazu weist der Gradientenabstieg mit Momentum (GDM) eine höhere Abhängigkeit vom Anfangsfunktionswert auf.
Im stochastischen Umfeld entspricht die obere Schranke der Konvergenzrate von Adam den unteren Schranken für stochastische Optimierer erster Ordnung, sowohl in Bezug auf den Anfangsfunktionswert als auch den Endwert. Es gibt jedoch Fälle, in denen SGDM unabhängig von der Lernrate und dem Momentum-Koeffizienten nicht konvergiert.
Darüber hinaus zeigt eine neuartige Stoppzeit-basierte Technik, dass die Konvergenzrate des Minimums des Gradientenbetrags von Adam die unteren Schranken über alle Problemparameter hinweg erreichen kann. Diese Technik kann auch dazu verwendet werden, zu beweisen, dass Adam mit einem speziellen Hyperparameter-Scheduler parameterunabhängig ist.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Bohan Wang,H... um arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15146.pdfTiefere Fragen