Core Concepts
Wir zeigen eine erstmalige beweisbare Konvergenz von SGD zum globalen Minimum des angemessen regularisierten logistischen empirischen Risikos von Tiefe-2-Netzen - für beliebige Daten mit einer beliebigen Anzahl von Toren mit ausreichend glatten und beschränkten Aktivierungen wie Sigmoid und Tanh und für eine Klasse von Verteilungen, aus denen das Anfangsgewicht abgetastet wird.
Abstract
In dieser Arbeit zeigen wir den ersten Beweis für die Konvergenz von SGD zum globalen Minimum des logistischen Verlusts auf einem neuronalen Netz, ohne Annahmen über die Daten oder die Breite des Netzes zu treffen.
Der Schlüssel ist der Nachweis, dass die logistische Verlustfunktion auf einem beliebig großen neuronalen Netz durch eine Frobenius-Norm-Regularisierung mit einem breitenunabhängigen Parameter so regularisiert werden kann, dass der regularisierte Verlust eine "Villani-Funktion" ist - und damit auf den jüngsten Fortschritten bei der Analyse von SGD auf solchen Zielfunktionen aufgebaut werden kann.
Wir zeigen, dass für Netze mit einer einzelnen Schicht von Sigmoid- oder Tanh-Toren und einer beliebigen Datenmenge und Netzgröße SGD auf dem angemessen regularisierten logistischen Verlust bei Verwendung konstanter Schrittgrößen der Größenordnung O(ε) in O(1/ε) Schritten zu Gewichten konvergiert, bei denen der erwartete regularisierte Verlust um ε vom globalen Minimum entfernt ist.
Darüber hinaus zeigen wir, dass für unsere Architektur, wenn die SoftPlus-Aktivierung verwendet wird, die zugrunde liegende SDE in linearer Zeit in Erwartung zum globalen Minimisierer konvergiert.
Unsere Experimente zeigen auch, dass es neuronale Netze und binäre klassenlabellierte Daten gibt, bei denen die Optimierung unserer nachweislich guten glatten Verlustfunktionen auch eine sehr genaue Klassifizierung erzielt.
Stats
Die Regularisierungsschwelle λc skaliert mit der Norm der Eingabedaten und der Norm der äußeren Schicht der Gewichte.
Für die Sigmoid-Aktivierung mit β = 1 ergibt sich λsi,1
c ≈ 0,03125.
Quotes
Keine relevanten Zitate gefunden.