Der Artikel präsentiert den Prodigy-Algorithmus, eine Weiterentwicklung des D-Adaptation-Verfahrens für konvexe Optimierung. Prodigy schätzt die Distanz zur Lösung D online ab und verwendet diese Information, um die Lernrate optimal anzupassen.
Der Kern des Beitrags ist, dass Prodigy eine modifizierte Schrittweitenschätzung verwendet, die eine bessere Konvergenzrate als D-Adaptation ermöglicht. Statt die maximale Schätzung von D zu verwenden, skaliert Prodigy die Schrittweite mit einem gewichteten Mittel der bisherigen Schätzungen. Dadurch wird der Fehlerterm in der Konvergenzanalyse reduziert.
Die Autoren zeigen theoretisch, dass Prodigy eine Konvergenzrate von O(GD/√(n log(D/d0))) erreicht, was eine Verbesserung gegenüber D-Adaptation um einen Faktor von √log(D/d0) darstellt. In umfangreichen Experimenten auf konvexen Logistik-Regressions-Benchmarks sowie in Deep Learning-Anwendungen wie Bilderkennung und Sprachmodellierung zeigt Prodigy eine konsistent bessere Leistung als D-Adaptation und erreicht Genauigkeiten nahe an manuell abgestimmtem Adam.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Konstantin M... lúc arxiv.org 03-21-2024
https://arxiv.org/pdf/2306.06101.pdfYêu cầu sâu hơn