Der Artikel stellt einen neuen Algorithmus namens RAMDA (Regularized Adaptive Momentum Dual Averaging) vor, der zum Training strukturierter neuronaler Netzwerke entwickelt wurde.
RAMDA kombiniert die Vorteile von regularisierten dualen Durchschnittsverfahren (wie RMDA) mit adaptiven Methoden (wie Adam), um Modelle mit einer lokal optimalen Struktur und gleichzeitig hervorragender Vorhersageleistung zu erhalten.
Der Schlüssel dazu ist ein sorgfältig entworfener Vorkonditionierer und ein implementierbares Inexaktheitskriterium für das Teilproblem, das die Konvergenz und Strukturgarantien nicht beeinträchtigt.
Die theoretische Analyse zeigt, dass RAMDA nach einer endlichen Anzahl von Iterationen die lokal optimale Struktur, die durch den Regularisierer induziert wird, identifiziert. Umfangreiche Experimente auf modernen Computer-Vision-, Sprach-Modellierungs- und Sprachsynthese-Aufgaben belegen, dass RAMDA die Vorhersageleistung und Struktursparsität im Vergleich zum Stand der Technik deutlich verbessert.
翻譯成其他語言
從原文內容
arxiv.org
深入探究