Die Studie untersucht die Konvergenzraten des Adam-Optimierers und des SGDM unter der Annahme der (L0, L1)-Glattheit.
Im deterministischen Umfeld zeigt sich, dass Adam eine Konvergenzrate erreichen kann, die mit der bekannten unteren Schranke für deterministische Optimierer erster Ordnung übereinstimmt. Im Gegensatz dazu weist der Gradientenabstieg mit Momentum (GDM) eine höhere Abhängigkeit vom Anfangsfunktionswert auf.
Im stochastischen Umfeld entspricht die obere Schranke der Konvergenzrate von Adam den unteren Schranken für stochastische Optimierer erster Ordnung, sowohl in Bezug auf den Anfangsfunktionswert als auch den Endwert. Es gibt jedoch Fälle, in denen SGDM unabhängig von der Lernrate und dem Momentum-Koeffizienten nicht konvergiert.
Darüber hinaus zeigt eine neuartige Stoppzeit-basierte Technik, dass die Konvergenzrate des Minimums des Gradientenbetrags von Adam die unteren Schranken über alle Problemparameter hinweg erreichen kann. Diese Technik kann auch dazu verwendet werden, zu beweisen, dass Adam mit einem speziellen Hyperparameter-Scheduler parameterunabhängig ist.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Bohan Wang,H... às arxiv.org 03-25-2024
https://arxiv.org/pdf/2403.15146.pdfPerguntas Mais Profundas