這篇研究論文介紹了一種名為 Ouroboros 的新型解碼框架,旨在加速大型語言模型 (LLM) 的推論過程。作者指出,現有的推測解碼方法雖然能夠在不損失模型性能的情況下提升推論速度,但其草稿生成效率卻成為最終速度提升的瓶頸。
為了解決這個問題,Ouroboros 提出了以下改進:
不同於逐個詞彙生成草稿,Ouroboros 採用詞組級別的生成方式,並行生成多個詞組,從而更有效地生成更長的草稿。
Ouroboros 利用詞組拼接的方式,以極低的成本進一步延長草稿,並透過定制的 Transformer 注意力遮罩機制,僅需一次前向傳遞即可完成對多個延長草稿的驗證。
Ouroboros 並未完全捨棄未被目標模型接受的詞彙,而是從中篩選出高質量的詞組,並將其加入詞組庫,用於加速後續的草稿生成。
Ouroboros 還提出重用歷史對話中生成的詞組,以利用上下文相似性進一步提升推論速度。
重要的是,Ouroboros 不需要任何額外的訓練,並且可以應用於所有使用推測解碼的應用程序。實驗結果表明,Ouroboros 在不影響任務性能的前提下,可以顯著提升推論速度,相較於現有的推測解碼和lookahead decoding方法,分別有高達 2.8 倍和 1.9 倍的加速。
Ouroboros 為解決推測解碼中的草稿生成效率問題提供了一種新的思路,其提出的詞組級別生成和重用策略具有很高的實用價值。該方法的訓練無關特性也降低了其應用門檻,有利於更廣泛地應用於各種 LLM 推論場景。
未來可以進一步探索基於訓練的 Ouroboros 版本,以期獲得更大的加速效果。此外,將 Ouroboros 與高效的 LLM 實現和模型壓縮方法相結合,也是一個值得研究的方向。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Weilin Zhao,... lúc arxiv.org 10-16-2024
https://arxiv.org/pdf/2402.13720.pdfYêu cầu sâu hơn