In dieser Arbeit wird ein regularisierter Gradientenclipping-Algorithmus vorgestellt und bewiesen, dass er in der Lage ist, die globalen Minima der Verlustfunktion tiefer neuronaler Netze zu finden, sofern das Netz eine ausreichende Breite aufweist.
Der Schlüssel ist eine Modifikation des Standard-Gradientenclipping-Algorithmus, um die PL*-Bedingung, eine Variante der Polyak-Łojasiewicz-Ungleichung, auszunutzen. Diese Bedingung wurde kürzlich für verschiedene neuronale Netze in einer Nachbarschaft der Initialisierung bewiesen.
Die Autoren zeigen auch empirische Belege dafür, dass der theoretisch fundierte, regularisierte Gradientenclipping-Algorithmus mit dem aktuellen Stand der Technik bei Deep-Learning-Heuristiken konkurrenzfähig ist. Somit stellt der hier vorgestellte Algorithmus einen neuen Ansatz für ein rigoroses Deep Learning dar.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Matteo Tucat... at arxiv.org 04-15-2024
https://arxiv.org/pdf/2404.08624.pdfDeeper Inquiries