Die Arbeit untersucht das Training sehr tiefer neuronaler Netzwerke vom Typ der Residual Neural Networks (ResNets) im Grenzfall unendlicher Tiefe und beliebiger Breite. Dazu wird ein "Mean-Field"-Modell betrachtet, das ResNets durch Wahrscheinlichkeitsmaße über dem Produkt von Schichten und Parametern parametrisiert, wobei die Randverteilung über die Schichten konstant ist.
Um das Training dieses Modells zu analysieren, wird der Gradientenabstieg bezüglich eines bedingten optimalen Transportabstands (Conditional Optimal Transport, COT) betrachtet. Zunächst wird die Wohldefiniertheit der Gradientenflussgleichung gezeigt. Dann wird eine lokale Polyak-Łojasiewicz-Analyse durchgeführt, die die Konvergenz des Gradientenabstiegs zu einem globalen Minimum des Trainingsrisikos für geeignete Initialisierungen belegt. Dies ist das erste Konvergenzresultat dieser Art für unendlich tiefe und beliebig breite ResNets.
Darüber hinaus wird die Struktur des bedingten optimalen Transportabstands näher untersucht, insbesondere seine dynamische Formulierung. Einige dieser Ergebnisse könnten auch unabhängig von Interesse sein.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Raph... alle arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12887.pdfDomande più approfondite