Core Concepts
Durch die Integration von Wissenstransfer mittels Distillation in den Trainingsprozess auf geprünten Datensätzen kann eine signifikante Verbesserung der Modellgenauigkeit über verschiedene Datensätze, Pruningmethoden und Pruningfaktoren hinweg erzielt werden.
Abstract
Die Autoren untersuchen die Anwendung von Wissenstransfer durch Distillation beim Training von Modellen auf geprünten Datensätzen. Sie zeigen, dass die Integration der weichen Vorhersagen eines Lehrermodells, das auf dem vollständigen Datensatz trainiert wurde, in den Trainingsprozess des Schülermodells auf dem geprünten Datensatz zu einer deutlichen Verbesserung der Genauigkeit über alle Pruningfaktoren und Pruningmethoden hinweg führt.
Die Autoren machen mehrere wichtige Beobachtungen:
- Unter Verwendung von Distillation übertrifft einfaches zufälliges Pruning andere ausgeklügelte Pruningmethoden bei hohen Pruningfaktoren (niedriger f).
- Es besteht ein nützlicher Zusammenhang zwischen dem Pruningfaktor f und dem optimalen Gewicht des Distillation-Verlusts. Bei niedrigen Pruningfaktoren sollte man den Distillation-Anteil erhöhen, um den Einfluss von Rauschen und minderwertigen Proben zu verringern.
- Für kleine Pruningfaktoren führt der Einsatz von Lehrermodellen mit größerer Kapazität als das Schülermodell zu einer Verschlechterung der Genauigkeit. Überraschenderweise können Lehrermodelle mit kleinerer Kapazität als das Schülermodell die Ergebnisse verbessern.
Die Autoren liefern auch eine theoretische Motivation für den Einsatz von Selbstdistillation beim Training auf geprünten Datensätzen, indem sie zeigen, dass dies den Schätzfehler des Schülermodells verringert.
Stats
"Für CIFAR-100 mit f = 0.1 verbessert sich die Genauigkeit um 17% (von 39,8% auf 56,8%) durch den Einsatz von zufälligem Pruning."
"Für ImageNet mit f = 0.1 steigt die Top-5-Genauigkeit um 5% (von 82,37% auf 87,19%) durch zufälliges Pruning und um 20% (von 62,47% auf 82,47%) durch EL2N."
Quotes
"Durch die Integration von Wissenstransfer mittels Distillation in den Trainingsprozess auf geprünten Datensätzen kann eine signifikante Verbesserung der Modellgenauigkeit über verschiedene Datensätze, Pruningmethoden und Pruningfaktoren hinweg erzielt werden."
"Für kleine Pruningfaktoren führt der Einsatz von Lehrermodellen mit größerer Kapazität als das Schülermodell zu einer Verschlechterung der Genauigkeit. Überraschenderweise können Lehrermodelle mit kleinerer Kapazität als das Schülermodell die Ergebnisse verbessern."