Konvergenz des Gradientenabstiegs beim Training unendlich tiefer und breiter ResNets mit bedingtem optimalen Transport
Der Gradientenabstieg konvergiert für gut gewählte Initialisierungen zu einem globalen Minimum des Trainingsrisikos, wenn die Anzahl der Merkmale endlich aber ausreichend groß ist und das Risiko bei der Initialisierung hinreichend klein ist.