In dieser Arbeit wird eine neuartige Methode der gewichtsbasierten Destillation (WID) für die aufgabenunabhängige Komprimierung von BERT-Modellen vorgestellt. Im Gegensatz zu bisherigen Destillationsverfahren, die zusätzliche Ausrichtungsverluste verwenden, um das Verhalten des Lehrermodells nachzuahmen, überträgt WID das Wissen direkt durch das Erben der Gewichte.
Konkret wird der Komprimierungsprozess in WID als Abbildungen der Gewichtsmatrizen modelliert. Dafür werden Zeilenkompressionsfaktoren und Spaltenkompressionsfaktoren als Mappings entworfen, um die Gewichte zeilenweise und spaltenweise zu komprimieren. Außerdem wird eine neuartige Ausrichtungsstrategie für die Kompressionsfaktoren entwickelt, um die Residualverbindungen in Transformatoren zu berücksichtigen.
Die experimentellen Ergebnisse auf den GLUE- und SQuAD-Benchmarks zeigen, dass WID die bisherigen state-of-the-art-Verfahren zur aufgabenunabhängigen Destillation übertrifft. Darüber hinaus zeigt die Analyse, dass WID auch hochrangiges semantisches Wissen wie Aufmerksamkeitsmuster vom Lehrermodell lernen kann, ohne zusätzliche Ausrichtungsverluste zu verwenden.
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Taiqiang Wu,... ที่ arxiv.org 03-21-2024
https://arxiv.org/pdf/2305.09098.pdfสอบถามเพิ่มเติม