核心概念
Die vorgeschlagene Methode der Skalendekoppelten Destillation (SDD) ermöglicht es, feinkörniges und eindeutiges semantisches Wissen aus dem Lehrer-Modell in das Schüler-Modell zu übertragen, indem der globale Logit-Output in mehrere lokale Logit-Outputs dekomprimiert wird. Dadurch kann der Schüler die mehrskalige Semantik des Lehrers besser erlernen und seine Diskriminierungsfähigkeit für mehrdeutige Samples verbessern.
要約
Die Studie untersucht eine Limitation der klassischen logit-basierten Wissensübertragung, bei der der globale Logit-Output des Lehrers mehrere semantische Informationen vermischt, was zu einer suboptimalen Übertragung an den Schüler führen kann.
Um dies zu überwinden, schlagen die Autoren die Methode der Skalendekoppelten Destillation (SDD) vor. SDD dekomprimiert den globalen Logit-Output in mehrere lokale Logit-Outputs, die jeweils spezifische semantische Informationen repräsentieren. Anschließend werden diese lokalen Logit-Outputs in zwei Gruppen unterteilt - konsistente Terme, die zur gleichen Klasse wie der globale Output gehören, und komplementäre Terme, die zu anderen Klassen gehören.
Die konsistenten Terme übertragen das mehrskalige Wissen der entsprechenden Klasse an den Schüler. Die komplementären Terme bewahren die Mehrdeutigkeit der Samples, was den Schüler dazu anregt, sich mehr auf diese Samples zu konzentrieren und seine Diskriminierungsfähigkeit zu verbessern.
Umfangreiche Experimente auf verschiedenen Benchmark-Datensätzen zeigen die Effektivität von SDD, insbesondere bei feingranularen Klassifikationsaufgaben.
統計
Die globalen Logit-Outputs des Lehrers und Schülers koppeln oft mehrere semantische Informationen, was zu einer suboptimalen Übertragung an den Schüler führen kann.
SDD dekomprimiert den globalen Logit-Output in mehrere lokale Logit-Outputs, um feinkörniges und eindeutiges semantisches Wissen zu übertragen.
Die konsistenten lokalen Logit-Outputs übertragen das mehrskalige Wissen der entsprechenden Klasse, während die komplementären Outputs die Mehrdeutigkeit der Samples bewahren.
引用
"SDD decouples the global logit output into multiple local logit outputs and establishes distillation pipelines for them. This helps the student to mine and inherit fine-grained and unambiguous logit knowledge."
"By increasing the weight of complementary parts, SDD can guide the student to focus more on ambiguous samples, improving its discrimination ability."