核心概念
本文提出了一種新的知識蒸餾框架,稱為區塊式對數機率蒸餾(Block-KD),它透過逐步替換教師模型區塊作為中間模型,並利用這些中間模型的輸出對數機率進行蒸餾,從而實現特徵層級的暗知識對齊,並有效提升輕量級學生模型的效能。
摘要
論文資訊
- 標題:透過區塊式對數機率蒸餾實現特徵層級對齊,以解耦暗知識
- 作者:Chengting Yu, Fengzhao Zhang, Ruizhe Chen, Zuozhu Liu, Shurun Tan, Er-Ping Li, Aili Wang
- 機構:浙江大學資訊與電子工程學院、浙江大學ZJU-UIUC研究院
研究目標
本研究旨在探討如何更有效地將大型教師模型中的暗知識轉移到輕量級學生模型中,以提升學生模型的效能。
研究方法
本文提出了一種名為區塊式對數機率蒸餾(Block-KD)的新型知識蒸餾框架。該框架的核心概念是將教師模型的區塊逐步替換到學生模型中,形成一系列中間模型,並利用這些中間模型的輸出對數機率進行蒸餾,以實現特徵層級的暗知識對齊。具體而言,Block-KD 框架包含以下步驟:
- 建立中間模型: 將教師模型的區塊逐步替換到學生模型中,形成一系列中間模型,每個中間模型都包含了學生模型的部分區塊和教師模型的部分區塊。
- 對數機率蒸餾: 利用 KL 散度損失函數,將教師模型的輸出對數機率作為軟標籤,指導中間模型和學生模型的訓練。
- 特徵層級對齊: 中間模型的輸出對數機率可以視為對應特徵層級的間接表示,透過對數機率蒸餾,可以實現特徵層級的暗知識對齊。
主要發現
實驗結果顯示,Block-KD 框架在多個視覺基準數據集(CIFAR-100、ImageNet、MS-COCO)和自然語言處理基準數據集(MRPC、QQP、RTE、CoLA)上均取得了顯著的效能提升,超越了現有的知識蒸餾方法。
主要結論
Block-KD 框架提供了一種有效且通用的知識蒸餾方法,能夠有效地將教師模型中的暗知識轉移到學生模型中,提升學生模型的效能。
研究意義
本研究提出了一種新的知識蒸餾框架,為輕量級模型的訓練提供了一種新的思路,並為知識蒸餾領域的研究提供了新的方向。
研究限制與未來方向
本研究主要集中在圖像分類和目標檢測任務上,未來可以進一步探討 Block-KD 框架在其他任務上的應用。此外,本研究中使用的中間模型數量和結構是根據經驗設定的,未來可以進一步研究如何自動化地確定最佳的中間模型配置。
統計資料
BERT12 模型包含 12 個 Transformer 層、隱藏層大小為 768、前饋網路大小為 3072,以及 12 個注意力頭,總計 1.09 億個參數。
BERT4 模型包含 4 個 Transformer 層、隱藏層大小為 312、前饋網路大小為 1200,以及 12 個注意力頭,總計 1450 萬個參數。
BERT6 模型包含 6 個 Transformer 層、隱藏層大小為 768、前饋網路大小為 3072,以及 12 個注意力頭,總計 6700 萬個參數。