In dieser Arbeit stellen wir eine neuartige Methode namens Weight-Inherited Distillation (WID) vor, die eine effiziente Kompression von BERT-Modellen ermöglicht. Im Gegensatz zu herkömmlichen Destillationsverfahren, die zusätzliche Ausrichtungsverluste verwenden, um das Verhalten des Lehrermodells nachzuahmen, überträgt WID das Wissen direkt durch das Erben der Gewichte.
Konkret entwerfen wir Zeilenkompatoren und Spaltenkompatoren als Abbildungen, um die Gewichte über Strukturumparametrisierung zu komprimieren. Unsere Experimente auf den GLUE- und SQuAD-Benchmarks zeigen, dass WID die bisherigen state-of-the-art-Baselines für KD-basierte Kompression übertrifft. Darüber hinaus zeigt die weitere Analyse, dass WID auch Aufmerksamkeitsmuster vom Lehrermodell lernen kann, ohne zusätzliche Ausrichtungsverluste auf Aufmerksamkeitsverteilungen zu verwenden.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Taiqiang Wu,... alle arxiv.org 03-21-2024
https://arxiv.org/pdf/2305.09098.pdfDomande più approfondite