Effiziente und aufgabenunabhängige BERT-Komprimierung durch gewichtsbasierte Destillation
Die vorgeschlagene Methode der gewichtsbasierten Destillation (WID) überträgt das Wissen direkt von einem großen Lehrermodell auf ein kompaktes Schülermodell, ohne zusätzliche Ausrichtungsverluste zu verwenden.