Core Concepts
Durch die Kombination der erwarteten Bayes-Verlustfunktion mit dem ursprünglichen Verlust sowie die Verwendung von historischen Gradientinformationen zur adaptiven Erzeugung von Gewichtsperturbationen können die Generalisierungsleistung deutlich verbessert und gleichzeitig die Konvergenz beschleunigt werden.
Abstract
Der Artikel befasst sich mit der Verbesserung der Generalisierungsfähigkeit moderner tiefer neuronaler Netze (DNNs) durch die Verwendung von zufälliger Gewichtsperturbation (RWP).
Zunächst wird analysiert, dass es einen Zielkonflikt zwischen Generalisierung und Konvergenz bei RWP gibt. Um diesen zu adressieren, wird ein gemischter Verlustfunktionsansatz (m-RWP) vorgeschlagen, der den ursprünglichen Verlust mit der erwarteten Bayes-Verlustfunktion kombiniert. Dadurch kann die Konvergenz deutlich verbessert werden, was wiederum den Einsatz größerer Perturbationsvarianzen ermöglicht und so die Generalisierungsleistung steigert.
Darüber hinaus wird eine adaptive Methode zur Erzeugung der Gewichtsperturbationen (ARWP) entwickelt, die historische Gradientinformationen nutzt. Dies führt zu stabileren und effizienteren Perturbationen.
Die Kombination dieser beiden Verbesserungen, m-ARWP, erreicht eine deutlich effizientere Verbesserung der Generalisierungsleistung im Vergleich zu den bisherigen Methoden, insbesondere auf großen Datensätzen. Dabei ist m-ARWP sogar in der Lage, die Leistung von Sharpness-Aware Minimization (SAM) zu übertreffen, bei gleichzeitig deutlich geringerem Rechenaufwand.
Stats
Die Standardabweichung der Gradientenschätzung ist durch eine Konstante M beschränkt.
Die Verlustfunktion ist α-Lipschitz-stetig und β-glatt.
Quotes
"Durch die Kombination der erwarteten Bayes-Verlustfunktion mit dem ursprünglichen Verlust sowie die Verwendung von historischen Gradientinformationen zur adaptiven Erzeugung von Gewichtsperturbationen können die Generalisierungsleistung deutlich verbessert und gleichzeitig die Konvergenz beschleunigt werden."
"m-ARWP erreicht eine deutlich effizientere Verbesserung der Generalisierungsleistung im Vergleich zu den bisherigen Methoden, insbesondere auf großen Datensätzen. Dabei ist m-ARWP sogar in der Lage, die Leistung von Sharpness-Aware Minimization (SAM) zu übertreffen, bei gleichzeitig deutlich geringerem Rechenaufwand."