Kernkonzepte
Ein effizienter Algorithmus zur Approximation der gesamten Pareto-Front für die Ziele empirischer Verlust und Sparsität (ℓ1-Norm) in hochdimensionalen tiefen neuronalen Netzen.
Zusammenfassung
Der Artikel präsentiert einen Algorithmus, der es ermöglicht, die gesamte Pareto-Front für die oben genannten Ziele in sehr effizienter Weise für hochdimensionale tiefe neuronale Netze mit Millionen von Parametern zu approximieren.
Der Algorithmus besteht aus zwei Schritten:
- Einem Prädiktionsschritt, der uns in die Nähe eines anderen Teils der Front bringt.
- Einem Korrekturschritt, der uns wieder auf die Front zurückführt.
Die Autoren zeigen numerische Beispiele sowohl mit deterministischen als auch mit stochastischen Gradienten. Außerdem zeigen sie, dass die Kenntnis des Regularisierungspfads eine gut generalisierende Netzwerkparametrisierung ermöglicht.
Nach Wissen der Autoren ist dies der erste Algorithmus, der den Regularisierungspfad für nicht-konvexe Mehrzieloptimierungsprobleme (MOPs) mit Millionen von Freiheitsgraden berechnet.
Statistiken
Die Berechnung jedes einzelnen Punkts auf der Front ist deutlich weniger zeitaufwendig als die klassische DNN-Ausbildung.
Die Fortsetzungsmethode benötigt insgesamt 9,3 Millionen Iterationen für den MNIST-Datensatz, während der gewichtete Summenansatz 49,28 Millionen Iterationen benötigt.
Für den CIFAR10-Datensatz benötigt die Fortsetzungsmethode 1,95 Millionen Iterationen und der gewichtete Summenansatz 1,77 Millionen Iterationen.
Zitate
"Nach Wissen der Autoren ist dies der erste Algorithmus, der den Regularisierungspfad für nicht-konvexe Mehrzieloptimierungsprobleme (MOPs) mit Millionen von Freiheitsgraden berechnet."
"Die Fortsetzungsmethode benötigt insgesamt 9,3 Millionen Iterationen für den MNIST-Datensatz, während der gewichtete Summenansatz 49,28 Millionen Iterationen benötigt."