Die Studie untersucht die Auswirkungen von 18 verschiedenen Kompressionsverfahren und -einstellungen auf die Robustheit gegenüber Untergruppen von BERT-Sprachmodellen. Die Ergebnisse zeigen, dass die Leistung auf der schlechtesten Gruppe nicht allein von der Modellgröße abhängt, sondern auch von der verwendeten Kompressionsmethode. Darüber hinaus wurde festgestellt, dass Modellkompression nicht immer die Leistung auf Minderheitsuntergruppen verschlechtert. Auf Datensätzen, bei denen das Modell leicht überangepasst ist, kann Kompression sogar dazu beitragen, dass sich die Leistung über alle Untergruppen hinweg verbessert, da sie als eine Art Regularisierung wirkt. Außerdem wurde gezeigt, dass komprimierte Modelle mit der gleichen Parameterzahl aufgrund unterschiedlicher Gewichtsinitialisierung nach der Kompression eine unterschiedliche Leistung aufweisen können.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Leonidas Gee... pada arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17811.pdfPertanyaan yang Lebih Dalam