本文提出了一種新的白盒知識蒸餾框架 - 雙空間知識蒸餾 (DSKD)。現有的白盒知識蒸餾框架存在兩個主要問題:
由於教師模型和學生模型的輸出空間不同,導致最終的相似度較低,無法充分傳遞知識。
現有框架要求教師模型和學生模型的詞彙表相同,這在當前的大型語言模型中很難滿足。
為了解決這些問題,DSKD框架提出:
將教師模型的輸出隱藏狀態映射到學生模型的表示空間,使用學生模型的預測頭生成分佈,從而統一了輸出空間。這樣可以提高教師和學生模型在表示和分佈層面的相似度。
在此基礎上,DSKD進一步開發了一種跨模型注意力機制,可以自動對齊不同詞彙表的模型之間的token,從而支持不同詞彙表的大型語言模型之間的知識蒸餾。
實驗結果表明,DSKD在相同詞彙表的情況下顯著優於現有的白盒知識蒸餾框架,在不同詞彙表的情況下也優於現有的跨詞彙蒸餾方法。這說明DSKD是一種簡單有效的知識蒸餾框架,可以廣泛應用於各種大型語言模型的壓縮。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы