Core Concepts
In dieser Arbeit wird die Dynamik des Gradientenabstiegs beim Training eines zweischichtigen ReLU-Netzwerks für eine binäre Klassifizierung mit kleiner Initialisierung analysiert. Die Autoren zeigen, dass bei ausreichend kleiner Initialisierung die Neuronen in der ersten Schicht sich während der frühen Trainingsphase entweder auf die positiven oder negativen Trainingsdaten ausrichten. Außerdem liefern sie eine obere Schranke für die Zeit, die für diese Ausrichtung benötigt wird.
Abstract
Die Autoren untersuchen das Training eines zweischichtigen ReLU-Netzwerks für eine binäre Klassifizierungsaufgabe unter Verwendung des Gradientenabstiegs mit kleiner Initialisierung. Sie betrachten einen Trainingsdatensatz mit gut getrennten Eingangsvektoren: Jedes Paar von Eingangsdaten mit demselben Label ist positiv korreliert, und jedes Paar mit unterschiedlichen Labels ist negativ korreliert.
Die Analyse zeigt, dass die Neuronen in der ersten Schicht während der frühen Trainingsphase versuchen, sich entweder mit den positiven Daten oder den negativen Daten auszurichten, je nachdem, wie ihr entsprechendes Gewicht in der zweiten Schicht ist. Eine sorgfältige Analyse der Richtungsdynamik der Neuronen ermöglicht es den Autoren, eine obere Schranke von O(log n/√μ) für die Zeit anzugeben, die es braucht, damit alle Neuronen eine gute Ausrichtung mit den Eingangsdaten erreichen, wobei n die Anzahl der Datenpunkte und μ ein Maß für die Trennbarkeit der Daten ist.
Nach der frühen Ausrichtungsphase konvergiert der Verlust mit einer Rate von O(1/t) gegen Null, und die Gewichtematrix in der ersten Schicht ist näherungsweise niedrigrangig.
Numerische Experimente auf dem MNIST-Datensatz veranschaulichen die theoretischen Erkenntnisse.
Stats
Die Eingangsvektoren sind so gewählt, dass jedes Paar von Daten mit demselben Label positiv korreliert ist und jedes Paar mit unterschiedlichen Labels negativ korreliert ist.
Quotes
Keine relevanten Zitate identifiziert.