核心概念
提出了一種名為 HArmonized Speculative Sampling (HASS) 的新方法,通過學習協調的表示來解決大型語言模型推論加速過程中的目標不一致和上下文不一致的問題,從而實現更高的加速效果。
摘要
本文提出了 HArmonized Speculative Sampling (HASS),一種新的方法來解決大型語言模型推論加速過程中的目標不一致和上下文不一致問題。
目標不一致問題:之前的方法主要關注整個詞彙集的知識蒸餾,而忽略了實際推論階段的需求,即模型應該更關注高概率的目標詞。HASS 通過引入排序蒸餾的思想,設計了一種 Top-K 蒸餾損失函數,使得草稿模型能夠更好地學習目標模型最可能的目標詞。
上下文不一致問題:之前的方法在訓練和推論階段使用的上下文特徵不一致,導致了錯誤的累積。HASS 提出了一種協調的上下文對齊策略,在訓練過程中逐步引入目標模型的特徵,使得草稿模型能夠獲得與推論階段一致的上下文信息。
實驗結果顯示,HASS 在 LLaMA2-Chat 7/13B 和 LLaMA3-Instruct 8/70B 上分別取得了 2.81x-4.05x 的加速比,較 EAGLE-2 提升了 8%-20%。
統計資料
在 LLaMA2-Chat 7B 上,HASS 在 MT-bench 數據集上的加速比為 2.99x。
在 LLaMA2-Chat 13B 上,HASS 在 HumanEval 數據集上的加速比為 4.24x。
在 LLaMA3-Instruct 70B 上,HASS 在 GSM8K 數據集上的加速比為 4.08x。
引述
"之前的方法主要關注整個詞彙集的知識蒸餾,而忽略了實際推論階段的需求,即模型應該更關注高概率的目標詞。"
"之前的方法在訓練和推論階段使用的上下文特徵不一致,導致了錯誤的累積。"