核心概念
本文提出了一種名為 SWIFT 的新型自推測解碼演算法,該演算法通過動態選擇跳過大型語言模型中的中間層來加速模型推論,同時不影響生成文本的品質。
研究目標
本研究旨在解決大型語言模型 (LLM) 推論效率低下的問題,特別是針對模型規模不斷增長的情況。研究提出了一種名為 SWIFT 的新型自推測解碼 (SD) 演算法,該演算法無需額外訓練或輔助模型,即可動態優化目標 LLM 中跳過的層集合,從而實現推論加速。
方法
SWIFT 將 LLM 推論分為兩個階段:
**基於上下文內容的層集合優化:**利用 LLM 生成的上下文內容來識別與當前輸入流相對應的最佳跳過層集合。
**基於置信度的推論加速:**採用確定的配置來加速 LLM 推論,利用置信度分數來減少不必要的草稿步驟並選擇有價值的候選草稿,從而提高推測準確性和驗證效率。
主要發現
通過實驗證明,SWIFT 在各種模型和任務中都能夠持續地將推論速度提高 1.3 倍到 1.6 倍,同時保持生成文本的分佈。
SWIFT 在處理動態輸入數據流方面表現出良好的適應能力,並且可以與各種 LLM 骨幹網路無縫集成。
研究結果表明,較大規模的 LLM 具有更大的層稀疏性,這意味著 SWIFT 在加速更大規模的 LLM 方面具有巨大潛力。
結論
SWIFT 作為一種即插即用的自推測解碼演算法,為加速 LLM 推論提供了一種有效且通用的解決方案。其動態層跳過機制和基於置信度的推論策略使其能夠在不影響生成文本品質的情況下顯著提高推論效率。
意義
本研究對於提高 LLM 在實際應用中的效率具有重要意義。隨著 LLM 規模的持續增長,SWIFT 提供了一種有前景的方法來應對日益增長的計算需求,並促進 LLM 在更廣泛領域的應用。
局限性和未來研究方向
未來研究可以進一步探索 SWIFT 在加速更大規模 LLM(例如 175B)方面的性能。
研究 SWIFT 與其他加速技術(例如模型壓縮)的結合,以進一步提高 LLM 推論效率。
統計資料
SWIFT 在 LLaMA-2 系列模型上實現了 98% 到 100% 的標記接受率。
SWIFT 在 LLaMA-2-70B 模型上實現了 1.62 倍的加速比。
SWIFT 的優化步驟僅佔總推論延遲的 0.8%。