Główne pojęcia
文章提出了一種名為 FIRST(高效可靠蒸餾)的新方法,旨在透過「知識濃縮」和「可靠性最大化」策略,將大型語言模型的知識高效地轉移到較小的模型中,從而解決微調過程中產生的校準問題,並提高模型的可靠性。
論文資訊
作者:Kashun Shum, Minrui Xu, Jianshu Zhang 等
機構:香港科技大學、武漢大學、NVIDIA、普渡大學
發表日期:2024年10月2日
研究背景
大型語言模型(LLM)在各種下游任務中展現出強大的能力,但同時也存在著校準問題,即模型預測的置信度與其真實準確性之間存在差距。現有的微調方法雖然可以提高模型在下游任務上的準確性,但會加劇校準問題。雖然基於蒸餾的方法可以透過匹配機率分佈來緩解校準問題,但由於教師模型本身也存在校準問題,因此效果有限。此外,蒸餾方法還面臨著如何平衡知識轉移量與效率的挑戰。
研究目標
為了獲得可靠且高效的LLM,本研究提出了一種名為FIRST(高效可靠蒸餾)的新方法,旨在利用教師模型中一小部分的知識來訓練可靠的學生模型。
研究方法
FIRST方法主要包含三個步驟:
高效的知識選擇(Efficient Knowledge Selection): 基於對LLM「知識濃縮」現象的觀察,FIRST選擇教師模型中機率最高的5個詞彙及其對應的機率作為知識進行轉移,以在知識完整性和計算效率之間取得平衡。
知識可靠性最大化(Knowledge Trustworthy Maximization): 為了消除教師模型中由於微調而產生的校準問題,FIRST採用「溫度縮放」技術對教師模型的機率分佈進行重新校準,以確保學生模型能夠學習到更可靠的知識。
知識匹配(Knowledge Matching): 在獲得重新校準的機率分佈後,FIRST使用 Kullback–Leibler 散度來衡量教師模型和學生模型之間的差異,並以此作為損失函數來訓練學生模型。
實驗結果
實驗結果表明,與標準微調和直接蒸餾方法相比,FIRST方法在多個基準測試中均取得了更高的準確性和更低的校準誤差,證明了其在提高模型可靠性方面的有效性。
研究結論
FIRST方法透過高效可靠的蒸餾技術,成功地將大型語言模型的知識轉移到較小的模型中,並有效地解決了微調過程中產生的校準問題,為訓練可靠且高效的LLM提供了一種新的思路。
Statystyki
Top-5 tokens 的累積機率覆蓋率超過 95%。
使用 Top-5 tokens 可以將所需的儲存空間從 120 TB 減少到 1.2 GB。
在 BoolQ 數據集中,FIRST7B w/ TS 的 ECE 值顯著低於 Distill7B w/ LS。
在 CSQA 數據集中,Fine-tune7B 模型的 ECE 值高達 21.6%,而其準確性僅為 28.3%。