Der Artikel stellt einen neuen Algorithmus namens RAMDA (Regularized Adaptive Momentum Dual Averaging) vor, der zum Training strukturierter neuronaler Netzwerke entwickelt wurde.
RAMDA kombiniert die Vorteile von regularisierten dualen Durchschnittsverfahren (wie RMDA) mit adaptiven Methoden (wie Adam), um Modelle mit einer lokal optimalen Struktur und gleichzeitig hervorragender Vorhersageleistung zu erhalten.
Der Schlüssel dazu ist ein sorgfältig entworfener Vorkonditionierer und ein implementierbares Inexaktheitskriterium für das Teilproblem, das die Konvergenz und Strukturgarantien nicht beeinträchtigt.
Die theoretische Analyse zeigt, dass RAMDA nach einer endlichen Anzahl von Iterationen die lokal optimale Struktur, die durch den Regularisierer induziert wird, identifiziert. Umfangreiche Experimente auf modernen Computer-Vision-, Sprach-Modellierungs- und Sprachsynthese-Aufgaben belegen, dass RAMDA die Vorhersageleistung und Struktursparsität im Vergleich zum Stand der Technik deutlich verbessert.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Zih-Syuan Hu... ב- arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14398.pdfשאלות מעמיקות