Kernkonzepte
Frühe Klassifikatoren in Early-Exit-Netzwerken, die kontinuierlich gelernt werden, zeigen weniger Vergessen und können selbst bei deutlich geringerem Rechenaufwand die Leistung von Standardnetzwerken übertreffen. Durch unsere Methode zur Korrektur der aufgabenspezifischen Verzerrung können wir die Leistung der Early-Exit-Netzwerke im kontinuierlichen Lernen weiter verbessern.
Zusammenfassung
Die Studie untersucht das kontinuierliche Lernen von Early-Exit-Netzwerken, einer Architektur, die interne Klassifikatoren (ICs) an verschiedenen Schichten des Netzwerks platziert und es dem Netzwerk ermöglicht, früh im Netzwerk eine Vorhersage mit hoher Konfidenz abzugeben, um Rechenzeit und -ressourcen zu sparen.
Die Autoren machen folgende Beobachtungen:
- Frühe ICs in kontinuierlich gelernten Early-Exit-Netzwerken zeigen weniger Vergessen als spätere ICs und können sogar bei deutlich geringerem Rechenaufwand die Leistung von Standardnetzwerken übertreffen.
- Überdenkeffekte (overthinking) sind in kontinuierlich gelernten Early-Exit-Netzwerken stärker ausgeprägt als in konventionell trainierten Netzwerken.
- Die aufgabenspezifische Verzerrung (task-recency bias) hat einen schädlichen Einfluss auf die dynamische Inferenz in Early-Exit-Netzwerken, die in inkrementellen Klassifikationsaufgaben trainiert wurden.
- Die Autoren schlagen eine Methode zur Korrektur der aufgabenspezifischen Verzerrung (Task-wise Logits Correction, TLC) vor, die die Konfidenz der Vorhersagen für ältere Aufgaben erhöht und so die Leistung der Early-Exit-Netzwerke im kontinuierlichen Lernen verbessert.
Die Experimente auf CIFAR100, TinyImageNet und ImageNetSubset zeigen, dass Early-Exit-Netzwerke mit TLC die Leistung von Standardnetzwerken bei deutlich geringerem Rechenaufwand erreichen können und bei vollem Rechenbudget sogar um bis zu 15 Prozentpunkte übertreffen.
Statistiken
Die frühen internen Klassifikatoren in kontinuierlich gelernten Early-Exit-Netzwerken zeigen eine Genauigkeit von bis zu 30%, während der finale Klassifikator nur 13% erreicht.
Kontinuierlich gelernte Early-Exit-Netzwerke können bei 50-75% des Rechenaufwands die Leistung von Standardnetzwerken erreichen und bei vollem Rechenbudget ihre Genauigkeit um bis zu 15 Prozentpunkte übertreffen.
Zitate
"Frühe Klassifikatoren in kontinuierlich gelernten Early-Exit-Netzwerken zeigen weniger Vergessen und können sogar bei deutlich geringerem Rechenaufwand die Leistung von Standardnetzwerken übertreffen."
"Die aufgabenspezifische Verzerrung hat einen schädlichen Einfluss auf die dynamische Inferenz in Early-Exit-Netzwerken, die in inkrementellen Klassifikationsaufgaben trainiert wurden."