toplogo
Sign In

Globale Konvergenz von SGD für logistischen Verlust auf zweischichtigen neuronalen Netzen


Core Concepts
Wir zeigen eine erstmalige beweisbare Konvergenz von SGD zum globalen Minimum des angemessen regularisierten logistischen empirischen Risikos von Tiefe-2-Netzen - für beliebige Daten mit einer beliebigen Anzahl von Toren mit ausreichend glatten und beschränkten Aktivierungen wie Sigmoid und Tanh und für eine Klasse von Verteilungen, aus denen das Anfangsgewicht abgetastet wird.
Abstract
In dieser Arbeit zeigen wir den ersten Beweis für die Konvergenz von SGD zum globalen Minimum des logistischen Verlusts auf einem neuronalen Netz, ohne Annahmen über die Daten oder die Breite des Netzes zu treffen. Der Schlüssel ist der Nachweis, dass die logistische Verlustfunktion auf einem beliebig großen neuronalen Netz durch eine Frobenius-Norm-Regularisierung mit einem breitenunabhängigen Parameter so regularisiert werden kann, dass der regularisierte Verlust eine "Villani-Funktion" ist - und damit auf den jüngsten Fortschritten bei der Analyse von SGD auf solchen Zielfunktionen aufgebaut werden kann. Wir zeigen, dass für Netze mit einer einzelnen Schicht von Sigmoid- oder Tanh-Toren und einer beliebigen Datenmenge und Netzgröße SGD auf dem angemessen regularisierten logistischen Verlust bei Verwendung konstanter Schrittgrößen der Größenordnung O(ε) in O(1/ε) Schritten zu Gewichten konvergiert, bei denen der erwartete regularisierte Verlust um ε vom globalen Minimum entfernt ist. Darüber hinaus zeigen wir, dass für unsere Architektur, wenn die SoftPlus-Aktivierung verwendet wird, die zugrunde liegende SDE in linearer Zeit in Erwartung zum globalen Minimisierer konvergiert. Unsere Experimente zeigen auch, dass es neuronale Netze und binäre klassenlabellierte Daten gibt, bei denen die Optimierung unserer nachweislich guten glatten Verlustfunktionen auch eine sehr genaue Klassifizierung erzielt.
Stats
Die Regularisierungsschwelle λc skaliert mit der Norm der Eingabedaten und der Norm der äußeren Schicht der Gewichte. Für die Sigmoid-Aktivierung mit β = 1 ergibt sich λsi,1 c ≈ 0,03125.
Quotes
Keine relevanten Zitate gefunden.

Deeper Inquiries

Wie können die Beschränkungen an die Anfangsgewichtsverteilung in intuitiver formuliert werden

Die Beschränkungen an die Anfangsgewichtsverteilung können intuitiver formuliert werden, indem man sagt, dass die Gewichte so initialisiert werden müssen, dass sie nicht zu extremen Werten divergieren. Dies bedeutet, dass die Gewichte nicht unendlich groß werden dürfen, da dies zu instabilen Trainingsverläufen führen kann. Stattdessen sollten die Gewichte aus einer Verteilung gezogen werden, die es ermöglicht, dass sie in einem vernünftigen Bereich bleiben, um eine konvergente Optimierung zu gewährleisten.

Gibt es natürliche Gewichtsinitialisierungsverfahren, die den von uns geforderten Kriterien genügen

Es gibt natürliche Gewichtsinitialisierungsverfahren, die den geforderten Kriterien genügen könnten. Zum Beispiel könnte die Initialisierung der Gewichte aus einer Normalverteilung mit einer angemessenen Standardabweichung erfolgen, um sicherzustellen, dass die Gewichte nicht zu groß werden. Darüber hinaus könnten Techniken wie die Glorot- oder He-Initialisierung verwendet werden, um sicherzustellen, dass die Gewichte in einem Bereich liegen, der eine stabile Optimierung ermöglicht. Diese natürlichen Initialisierungsverfahren könnten die Anforderungen an die Anfangsgewichtsverteilung erfüllen, die für die Konvergenz des Trainingsalgorithmus notwendig sind.

Kann man zeigen, dass neuronale Verlustfunktionen Villani-Funktionen sein können, ohne so starke Regularisierung zu benötigen

Es könnte möglich sein zu zeigen, dass neuronale Verlustfunktionen Villani-Funktionen sind, ohne so starke Regularisierung zu benötigen. Dies könnte durch die Untersuchung spezifischer Eigenschaften der Verlustfunktionen und der Aktivierungsfunktionen erreicht werden. Möglicherweise gibt es bestimmte Kombinationen von Verlust- und Aktivierungsfunktionen, die von Natur aus die Eigenschaften einer Villani-Funktion aufweisen, ohne dass eine übermäßige Regularisierung erforderlich ist. Durch eine detaillierte Analyse dieser Funktionen könnte gezeigt werden, dass sie die Kriterien einer Villani-Funktion erfüllen, was zu einer verbesserten Konvergenz der neuronalen Netze führen könnte.
0