Der Artikel stellt einen neuen Algorithmus namens RAMDA (Regularized Adaptive Momentum Dual Averaging) vor, der zum Training strukturierter neuronaler Netzwerke entwickelt wurde.
RAMDA kombiniert die Vorteile von regularisierten dualen Durchschnittsverfahren (wie RMDA) mit adaptiven Methoden (wie Adam), um Modelle mit einer lokal optimalen Struktur und gleichzeitig hervorragender Vorhersageleistung zu erhalten.
Der Schlüssel dazu ist ein sorgfältig entworfener Vorkonditionierer und ein implementierbares Inexaktheitskriterium für das Teilproblem, das die Konvergenz und Strukturgarantien nicht beeinträchtigt.
Die theoretische Analyse zeigt, dass RAMDA nach einer endlichen Anzahl von Iterationen die lokal optimale Struktur, die durch den Regularisierer induziert wird, identifiziert. Umfangreiche Experimente auf modernen Computer-Vision-, Sprach-Modellierungs- und Sprachsynthese-Aufgaben belegen, dass RAMDA die Vorhersageleistung und Struktursparsität im Vergleich zum Stand der Technik deutlich verbessert.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Zih-Syuan Hu... alle arxiv.org 03-22-2024
https://arxiv.org/pdf/2403.14398.pdfDomande più approfondite