Core Concepts
Diese Arbeit liefert die ersten engen Konvergenzanalysen für RMSProp und Adam in nicht-konvexen Optimierungen unter den lockersten Annahmen von koordinatenweiser verallgemeinerter Glattheit und affiner Rauschvarianz.
Abstract
Die Autoren analysieren zunächst RMSProp, einen Spezialfall von Adam mit adaptiven Lernraten aber ohne Momentum erster Ordnung. Sie zeigen, dass RMSProp mit geeigneten Hyperparametern zu einem ǫ-stationären Punkt mit einer Iterationskomplexität von O(ǫ^-4) konvergiert.
Anschließend verallgemeinern sie die Analyse auf Adam, wo die zusätzliche Herausforderung durch eine Diskrepanz zwischen Gradient und Momentum erster Ordnung entsteht. Die Autoren entwickeln eine neue obere Schranke für den Ausdruck erster Ordnung in der Abstiegsungleichung, die ebenfalls eine Funktion der Gradientennorm ist. Sie zeigen, dass Adam mit geeigneten Hyperparametern zu einem ǫ-stationären Punkt mit einer Iterationskomplexität von O(ǫ^-4) konvergiert.
Die Komplexitätsergebnisse für RMSProp und Adam stimmen mit der in (Arjevani et al., 2023) etablierten unteren Schranke überein.
Stats
E[g_t,i^2|F_t] ≤ D_0 + D_1 (∂_i f(x_t))^2
∥∇f(x_t)∥^2 / √(β_2 ∥v_t-1∥ + ζ) ≤ ǫ^2 / T
Quotes
"Diese Arbeit liefert die ersten engen Konvergenzanalysen für RMSProp und Adam in nicht-konvexen Optimierungen unter den lockersten Annahmen von koordinatenweiser verallgemeinerter Glattheit und affiner Rauschvarianz."
"Sie zeigen, dass RMSProp mit geeigneten Hyperparametern zu einem ǫ-stationären Punkt mit einer Iterationskomplexität von O(ǫ^-4) konvergiert."
"Sie zeigen, dass Adam mit geeigneten Hyperparametern zu einem ǫ-stationären Punkt mit einer Iterationskomplexität von O(ǫ^-4) konvergiert."