Die Studie untersucht eine Limitation der klassischen logit-basierten Wissensübertragung, bei der der globale Logit-Output des Lehrers mehrere semantische Informationen vermischt, was zu einer suboptimalen Übertragung an den Schüler führen kann.
Um dies zu überwinden, schlagen die Autoren die Methode der Skalendekoppelten Destillation (SDD) vor. SDD dekomprimiert den globalen Logit-Output in mehrere lokale Logit-Outputs, die jeweils spezifische semantische Informationen repräsentieren. Anschließend werden diese lokalen Logit-Outputs in zwei Gruppen unterteilt - konsistente Terme, die zur gleichen Klasse wie der globale Output gehören, und komplementäre Terme, die zu anderen Klassen gehören.
Die konsistenten Terme übertragen das mehrskalige Wissen der entsprechenden Klasse an den Schüler. Die komplementären Terme bewahren die Mehrdeutigkeit der Samples, was den Schüler dazu anregt, sich mehr auf diese Samples zu konzentrieren und seine Diskriminierungsfähigkeit zu verbessern.
Umfangreiche Experimente auf verschiedenen Benchmark-Datensätzen zeigen die Effektivität von SDD, insbesondere bei feingranularen Klassifikationsaufgaben.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Shicai Wei C... alle arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13512.pdfDomande più approfondite