Effiziente und aufgabenunabhängige BERT-Kompression durch gewichtsbasierte Destillation
Die vorgeschlagene Methode der gewichtsbasierten Destillation (WID) überträgt das Wissen des Lehrermodells direkt auf das Schülermodell, ohne zusätzliche Ausrichtungsverluste zu verwenden. Stattdessen werden Zeilenkompatoren und Spaltenkompatoren als Abbildungen verwendet, um die Gewichte effizient zu komprimieren.