Die Studie untersucht eine Limitation der klassischen logit-basierten Wissensübertragung, bei der der globale Logit-Output des Lehrers mehrere semantische Informationen vermischt, was zu einer suboptimalen Übertragung an den Schüler führen kann.
Um dies zu überwinden, schlagen die Autoren die Methode der Skalendekoppelten Destillation (SDD) vor. SDD dekomprimiert den globalen Logit-Output in mehrere lokale Logit-Outputs, die jeweils spezifische semantische Informationen repräsentieren. Anschließend werden diese lokalen Logit-Outputs in zwei Gruppen unterteilt - konsistente Terme, die zur gleichen Klasse wie der globale Output gehören, und komplementäre Terme, die zu anderen Klassen gehören.
Die konsistenten Terme übertragen das mehrskalige Wissen der entsprechenden Klasse an den Schüler. Die komplementären Terme bewahren die Mehrdeutigkeit der Samples, was den Schüler dazu anregt, sich mehr auf diese Samples zu konzentrieren und seine Diskriminierungsfähigkeit zu verbessern.
Umfangreiche Experimente auf verschiedenen Benchmark-Datensätzen zeigen die Effektivität von SDD, insbesondere bei feingranularen Klassifikationsaufgaben.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Shicai Wei C... lúc arxiv.org 03-21-2024
https://arxiv.org/pdf/2403.13512.pdfYêu cầu sâu hơn