Die Studie untersucht die Konvergenzraten des Adam-Optimierers und des SGDM unter der Annahme der (L0, L1)-Glattheit.
Im deterministischen Umfeld zeigt sich, dass Adam eine Konvergenzrate erreichen kann, die mit der bekannten unteren Schranke für deterministische Optimierer erster Ordnung übereinstimmt. Im Gegensatz dazu weist der Gradientenabstieg mit Momentum (GDM) eine höhere Abhängigkeit vom Anfangsfunktionswert auf.
Im stochastischen Umfeld entspricht die obere Schranke der Konvergenzrate von Adam den unteren Schranken für stochastische Optimierer erster Ordnung, sowohl in Bezug auf den Anfangsfunktionswert als auch den Endwert. Es gibt jedoch Fälle, in denen SGDM unabhängig von der Lernrate und dem Momentum-Koeffizienten nicht konvergiert.
Darüber hinaus zeigt eine neuartige Stoppzeit-basierte Technik, dass die Konvergenzrate des Minimums des Gradientenbetrags von Adam die unteren Schranken über alle Problemparameter hinweg erreichen kann. Diese Technik kann auch dazu verwendet werden, zu beweisen, dass Adam mit einem speziellen Hyperparameter-Scheduler parameterunabhängig ist.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询