Core Concepts
Sharpness-Aware Minimization (SAM) nutzt den "Rand der Stabilität", um Lösungen mit glatten Regionen im Parameterraum zu finden, während der Trainingsfehler noch relativ groß ist.
Abstract
Die Studie untersucht das Verhalten von Sharpness-Aware Minimization (SAM), einem Gradienten-basierten Trainingsalgorithmus für neuronale Netze, im Hinblick auf den "Rand der Stabilität".
Der Rand der Stabilität beschreibt einen kritischen Wert für die Norm der Hessischen Matrix, bei dem das Gradientenabstiegsverfahren (GD) zu oszillieren beginnt. Die Autoren leiten eine analoge Bedingung für den Rand der Stabilität von SAM ab, die von der Norm des Gradienten abhängt.
In Experimenten mit vollverbundenen Netzen auf MNIST, konvolutionalen Netzen auf CIFAR10 und Transformern auf tiny_shakespeare zeigt sich, dass SAM tatsächlich am Rand der Stabilität operiert. Im Gegensatz zu GD, das zunächst den Trainingsfehler stark reduziert und dann entlang einer Mannigfaltigkeit von nahezu optimalen Lösungen wandert, treibt SAM die Lösungen früh im Training zu glatten Regionen im Parameterraum, auch wenn der Trainingsfehler noch relativ groß ist.
Stats
Die Norm der Hessischen Matrix liegt bei SAM-Iterationen oft deutlich unter 2/η, dem Rand der Stabilität für GD.
Die Norm der Hessischen Matrix folgt genau dem von der Analyse vorhergesagten Rand der Stabilität für SAM.
Je kleiner der Gradient wird, desto kleiner wird auch der Rand der Stabilität für SAM.
Quotes
"Sharpness-Aware Minimization (SAM) ist ein neuer Gradienten-basierter Trainingsalgorithmus für neuronale Netze, der den State-of-the-Art bei der Testgenauigkeit auf mehreren prominenten Benchmark-Datensätzen verbessert hat."
"Für viele Initialisierungsschemata und Lernraten η stabilisiert sich die Norm der Hessischen Matrix bei GD-Training schließlich in der Umgebung von 2/η."