Die Arbeit untersucht das Training sehr tiefer neuronaler Netzwerke vom Typ der Residual Neural Networks (ResNets) im Grenzfall unendlicher Tiefe und beliebiger Breite. Dazu wird ein "Mean-Field"-Modell betrachtet, das ResNets durch Wahrscheinlichkeitsmaße über dem Produkt von Schichten und Parametern parametrisiert, wobei die Randverteilung über die Schichten konstant ist.
Um das Training dieses Modells zu analysieren, wird der Gradientenabstieg bezüglich eines bedingten optimalen Transportabstands (Conditional Optimal Transport, COT) betrachtet. Zunächst wird die Wohldefiniertheit der Gradientenflussgleichung gezeigt. Dann wird eine lokale Polyak-Łojasiewicz-Analyse durchgeführt, die die Konvergenz des Gradientenabstiegs zu einem globalen Minimum des Trainingsrisikos für geeignete Initialisierungen belegt. Dies ist das erste Konvergenzresultat dieser Art für unendlich tiefe und beliebig breite ResNets.
Darüber hinaus wird die Struktur des bedingten optimalen Transportabstands näher untersucht, insbesondere seine dynamische Formulierung. Einige dieser Ergebnisse könnten auch unabhängig von Interesse sein.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Raph... klokken arxiv.org 03-20-2024
https://arxiv.org/pdf/2403.12887.pdfDypere Spørsmål