Der Artikel präsentiert den Prodigy-Algorithmus, eine Weiterentwicklung des D-Adaptation-Verfahrens für konvexe Optimierung. Prodigy schätzt die Distanz zur Lösung D online ab und verwendet diese Information, um die Lernrate optimal anzupassen.
Der Kern des Beitrags ist, dass Prodigy eine modifizierte Schrittweitenschätzung verwendet, die eine bessere Konvergenzrate als D-Adaptation ermöglicht. Statt die maximale Schätzung von D zu verwenden, skaliert Prodigy die Schrittweite mit einem gewichteten Mittel der bisherigen Schätzungen. Dadurch wird der Fehlerterm in der Konvergenzanalyse reduziert.
Die Autoren zeigen theoretisch, dass Prodigy eine Konvergenzrate von O(GD/√(n log(D/d0))) erreicht, was eine Verbesserung gegenüber D-Adaptation um einen Faktor von √log(D/d0) darstellt. In umfangreichen Experimenten auf konvexen Logistik-Regressions-Benchmarks sowie in Deep Learning-Anwendungen wie Bilderkennung und Sprachmodellierung zeigt Prodigy eine konsistent bessere Leistung als D-Adaptation und erreicht Genauigkeiten nahe an manuell abgestimmtem Adam.
翻譯成其他語言
從原文內容
arxiv.org
深入探究