Der Artikel präsentiert den Prodigy-Algorithmus, eine Weiterentwicklung des D-Adaptation-Verfahrens für konvexe Optimierung. Prodigy schätzt die Distanz zur Lösung D online ab und verwendet diese Information, um die Lernrate optimal anzupassen.
Der Kern des Beitrags ist, dass Prodigy eine modifizierte Schrittweitenschätzung verwendet, die eine bessere Konvergenzrate als D-Adaptation ermöglicht. Statt die maximale Schätzung von D zu verwenden, skaliert Prodigy die Schrittweite mit einem gewichteten Mittel der bisherigen Schätzungen. Dadurch wird der Fehlerterm in der Konvergenzanalyse reduziert.
Die Autoren zeigen theoretisch, dass Prodigy eine Konvergenzrate von O(GD/√(n log(D/d0))) erreicht, was eine Verbesserung gegenüber D-Adaptation um einen Faktor von √log(D/d0) darstellt. In umfangreichen Experimenten auf konvexen Logistik-Regressions-Benchmarks sowie in Deep Learning-Anwendungen wie Bilderkennung und Sprachmodellierung zeigt Prodigy eine konsistent bessere Leistung als D-Adaptation und erreicht Genauigkeiten nahe an manuell abgestimmtem Adam.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Konstantin M... ที่ arxiv.org 03-21-2024
https://arxiv.org/pdf/2306.06101.pdfสอบถามเพิ่มเติม