Der Artikel befasst sich mit dem Gradientenabstiegsverfahren, das üblicherweise zur Minimierung der $\mathcal{L}^2$-Kostenfunktion in Deep-Learning-Netzwerken verwendet wird. Der Autor führt zwei modifizierte Versionen des Gradientenabstiegsverfahrens ein, eine für den überparametrisierten Fall und eine für den unterparametrisierten Fall. Beide haben eine natürliche invariante geometrische Bedeutung und berücksichtigen die Pullback-Vektorbündelstruktur im überparametrisierten bzw. die Pushforward-Vektorbündelstruktur im unterparametrisierten Fall.
Im überparametrisierten Fall beweist der Autor, dass unter einer Rangbedingung alle Bahnen des modifizierten Gradientenabstiegs die $\mathcal{L}^2$-Kosten mit einer einheitlichen exponentiellen Konvergenzrate zum globalen Minimum treiben. Dies liefert eine a priori Stoppzeit für eine beliebig vorgegebene Nähe zum globalen Minimum der $\mathcal{L}^2$-Kosten.
Im unterparametrisierten Fall zeigt der Autor, dass die analoge Version des modifizierten Gradientenabstiegs auf einen geometrisch natürlichen eingeschränkten Gradientenabstieg abgebildet wird. Außerdem wird der Grenzfall zwischen dem streng überparametrisierten und dem unterparametrisierten Fall untersucht, in dem die beiden modifizierten Gradientenabstiegsverfahren zusammenfallen.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Thomas Chen at arxiv.org 03-19-2024
https://arxiv.org/pdf/2311.15487.pdfDeeper Inquiries