Effiziente Kompression von BERT durch gewichtsbasierte Destillation für aufgabenunabhängige Anwendungen
Wir schlagen eine neuartige gewichtsbasierte Destillation (WID) vor, die das Wissen direkt vom Lehrermodell auf das Schülermodell überträgt, ohne zusätzliche Ausrichtungsverluste zu verwenden.