Core Concepts
Die stochastische Heavy-Ball-Methode mit geeigneten Lernraten-Schedules kann eine beschleunigte Konvergenz im Vergleich zu SGD unter Großbatch-Einstellungen erreichen.
Abstract
Der Artikel untersucht die theoretischen Eigenschaften der stochastischen Heavy-Ball-Methode (SHB) für quadratische Zielfunktionen unter der Annahme von anisotropem Gradientenrauschen. Die Hauptergebnisse sind:
Es werden neuartige theoretische Techniken zur Analyse von SHB mit mehrstufigen Lernraten-Schedules eingeführt. Insbesondere wird gezeigt, dass das Produkt der Übergangsmatrizen T_t unter bestimmten Bedingungen nach oben beschränkt werden kann.
Basierend darauf wird eine nichtasymptotische Konvergenzrate für SHB mit Schritt-Abstufungs-Schedule auf quadratischen Zielfunktionen hergeleitet. Dies ist das erste nichtasymptotische Ergebnis für SHB auf Quadratiken, das den Zusammenhang zwischen Iterationszahl T, Konditionszahl κ und Konvergenzrate klar ausdrückt.
Die Ergebnisse zeigen, dass SHB unter Großbatch-Einstellungen eine nahezu optimale beschleunigte Konvergenz erreichen kann, während es gleichzeitig eine nahezu optimale Konvergenzrate in Bezug auf die stochastische Varianz beibehält. Dies impliziert, dass SHB in der Praxis, z.B. im Bereich des verteilten maschinellen Lernens oder des föderalen Lernens, von Vorteil sein kann.
Stats
Die Konvergenzrate von SGD ist mindestens Ω(κ log c), wobei κ die Konditionszahl ist und c den Faktor der Risikoreduzierung angibt.
Quotes
"Kurz gesagt, man kann Lernraten-Schedules als eine Varianzreduktions-Technik betrachten, die dazu beiträgt, die Instabilität und Abweichung aufgrund des stochastischen Gradientenrauschens abzumildern."
"Unsere Ergebnisse zeigen, dass die stochastische Heavy-Ball-Methode unter Großbatch-Einstellungen eine nahezu optimal beschleunigte Konvergenz erreichen kann, während sie gleichzeitig eine nahezu optimale Konvergenzrate in Bezug auf die stochastische Varianz beibehält."