แนวคิดหลัก
Wir beweisen neue Konvergenzraten für eine verallgemeinerte Version des stochastischen Nesterov-Beschleunigungsverfahrens unter Interpolationsbedingungen. Im Gegensatz zu früheren Analysen beschleunigt unser Ansatz jedes stochastische Gradientenverfahren, das in Erwartung ausreichenden Fortschritt erzielt.
บทคัดย่อ
Die Autoren analysieren einen verallgemeinerten stochastischen beschleunigten Gradientenabstieg (AGD) unter Interpolationsbedingungen. Ihre Analyse basiert auf dem Konzept der Schätzsequenzen und gilt sowohl für konvexe als auch für stark konvexe Funktionen.
Kernpunkte der Analyse sind:
- Der Beweis zeigt, dass jedes stochastische Gradientenverfahren, das in Erwartung ausreichenden Fortschritt erzielt, beschleunigt werden kann.
- Für den Spezialfall des stochastischen AGD unter der starken Wachstumsbedingung reduziert die Analyse die Abhängigkeit von der starken Wachstumskonstante von ρ auf √ρ im Vergleich zu früheren Arbeiten.
- Diese Verbesserung ist vergleichbar mit der Quadratwurzel der Konditionszahl im Worst-Case und adressiert die Kritik, dass Garantien für stochastische Beschleunigung schlechter sein könnten als für den stochastischen Gradientenabstieg.
- Die Analyse wird auch auf stochastische Gradientenverfahren mit Vorkonditionierung erweitert.
สถิติ
Ezk [∥∇f(wk, zk)∥2 / 2] ≤ ρ ∥∇f(wk)∥2 / 2
f(u) ≤ f(w) + ⟨∇f(w), u-w⟩ + L/2 ∥u-w∥2
f(u, zk) ≤ f(w, zk) + ⟨∇f(w, zk), u-w⟩ + Lmax/2 ∥u-w∥2
f(u) ≥ f(w) + ⟨∇f(w), u-w⟩ + μ/2 ∥u-w∥2
คำพูด
"Wir beweisen neue Konvergenzraten für eine verallgemeinerte Version des stochastischen Nesterov-Beschleunigungsverfahrens unter Interpolationsbedingungen."
"Im Gegensatz zu früheren Analysen beschleunigt unser Ansatz jedes stochastische Gradientenverfahren, das in Erwartung ausreichenden Fortschritt erzielt."
"Für den Spezialfall des stochastischen AGD unter der starken Wachstumsbedingung reduziert die Analyse die Abhängigkeit von der starken Wachstumskonstante von ρ auf √ρ im Vergleich zu früheren Arbeiten."