Der Artikel präsentiert den Prodigy-Algorithmus, eine Weiterentwicklung des D-Adaptation-Verfahrens für konvexe Optimierung. Prodigy schätzt die Distanz zur Lösung D online ab und verwendet diese Information, um die Lernrate optimal anzupassen.
Der Kern des Beitrags ist, dass Prodigy eine modifizierte Schrittweitenschätzung verwendet, die eine bessere Konvergenzrate als D-Adaptation ermöglicht. Statt die maximale Schätzung von D zu verwenden, skaliert Prodigy die Schrittweite mit einem gewichteten Mittel der bisherigen Schätzungen. Dadurch wird der Fehlerterm in der Konvergenzanalyse reduziert.
Die Autoren zeigen theoretisch, dass Prodigy eine Konvergenzrate von O(GD/√(n log(D/d0))) erreicht, was eine Verbesserung gegenüber D-Adaptation um einen Faktor von √log(D/d0) darstellt. In umfangreichen Experimenten auf konvexen Logistik-Regressions-Benchmarks sowie in Deep Learning-Anwendungen wie Bilderkennung und Sprachmodellierung zeigt Prodigy eine konsistent bessere Leistung als D-Adaptation und erreicht Genauigkeiten nahe an manuell abgestimmtem Adam.
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Konstantin M... às arxiv.org 03-21-2024
https://arxiv.org/pdf/2306.06101.pdfPerguntas Mais Profundas