Die Arbeit präsentiert eine theoretische Analyse der linearen Interpolation als eine prinzipielle Methode zur Stabilisierung des Trainings (großer) neuronaler Netzwerke. Die Autoren argumentieren, dass Instabilitäten im Optimierungsprozess oft durch die Nichtmonotonie der Verlustlandschaft verursacht werden, und zeigen, wie lineare Interpolation durch Ausnutzung der Theorie nichtexpansiver Operatoren dabei helfen kann.
Es wird ein neues Optimierungsschema namens "relaxed approximate proximal point" (RAPP) konstruiert, das das erste explizite Verfahren ohne Verankerung ist, das Konvergenzraten für ρ-komonotone Probleme mit ρ > -1/2L erreicht. Die Konstruktion erstreckt sich auch auf eingeschränkte und regularisierte Einstellungen.
Durch Ersetzen des inneren Optimierers in RAPP werden die Lookahead-Algorithmen wiederentdeckt, für die Konvergenz in kohypomonotonen Problemen selbst dann nachgewiesen wird, wenn der Basisoptimierer als Gradientenabstieg-Anstieg gewählt wird.
Die Ergebnisse werden durch Experimente auf generativen adversariellen Netzwerken untermauert, die den Nutzen der in RAPP und Lookahead enthaltenen linearen Interpolation zeigen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Thomas Pethi... at arxiv.org 03-15-2024
https://arxiv.org/pdf/2310.13459.pdfDeeper Inquiries