In dieser Arbeit wird eine neuartige Methode der gewichtsbasierten Destillation (WID) für die aufgabenunabhängige Kompression von BERT-Sprachmodellen vorgestellt. Im Gegensatz zu herkömmlichen Destillationsverfahren, die zusätzliche Ausrichtungsverluste verwenden, um das Verhalten des Lehrermodells nachzuahmen, überträgt WID das Wissen direkt durch das Erben der Gewichte.
Dazu werden Zeilenkompatoren und Spaltenkompatoren als Abbildungen entworfen, um die Gewichtsmatrizen des Lehrermodells effizient zu komprimieren. Die Kompatoren werden während des Trainings so ausgerichtet, dass die Residualverbindungen in Transformatoren berücksichtigt werden.
Die experimentellen Ergebnisse auf den GLUE- und SQuAD-Benchmarks zeigen, dass WID die bisherigen state-of-the-art-Verfahren für die aufgabenunabhängige BERT-Kompression übertrifft. Darüber hinaus zeigt die Analyse, dass WID auch hochrangiges semantisches Wissen wie Aufmerksamkeitsmuster vom Lehrermodell lernen kann, ohne zusätzliche Ausrichtungsverluste zu verwenden.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Taiqiang Wu,... at arxiv.org 03-21-2024
https://arxiv.org/pdf/2305.09098.pdfDeeper Inquiries