核心概念
解碼方法的選擇對於大型語言模型的效能至關重要,最佳方法取決於任務類型、模型特性以及對效能、穩健性和速度的要求。
這篇研究論文全面分析了大型語言模型時代各種解碼方法的效能、穩健性和速度。
研究目標
比較評估不同解碼方法(包含傳統方法和新興方法)在大型語言模型上的表現。
探討解碼方法的效能差異是否受到任務類型、模型規模和量化設置等因素的影響。
方法
選擇多種不同類型的任務進行評估,涵蓋程式碼生成、數學問題解決、文本摘要、翻譯、常識推理、事實知識、指令遵循和開放式文本生成等。
使用 Llama2 系列模型(包含對齊和未對齊版本)作為主要實驗對象,並在其他流行的大型語言模型上進行額外測試。
評估指標包括準確率、ROUGE-L、BLEU 和 MAUVE 等。
分析解碼方法的超參數敏感性和解碼速度。
主要發現
最佳解碼方法的選擇具有任務依賴性,並受到模型對齊、模型規模和量化設置等因素的影響。
對於未對齊模型,確定性方法在封閉式生成任務中表現優於隨機性方法,而隨機性方法在開放式生成任務中表現更佳。
對齊模型對解碼方法的依賴性較低,但確定性方法在需要高準確性和嚴格遵循指令的任務中仍然表現更可靠。
不同解碼方法對超參數的敏感性不同,部分方法需要進行大量的超參數搜索才能達到最佳效能。
隨機性解碼方法和新興的確定性方法(如 FSD)的解碼速度與貪婪搜索相當,而其他高級確定性方法(如 Beam Search)的解碼速度則明顯較慢。
結論
選擇合適的解碼方法對於充分發揮大型語言模型的效能至關重要。
未來研究需要對解碼方法進行更全面的評估,並考慮任務類型、模型特性和部署環境等因素。
實務上,應根據具體需求選擇解碼方法,並注意超參數調整和解碼速度等問題。
統計資料
在 MBPP 數據集中,FSD-d 在未對齊的 Llama2-7B 模型上取得了 21.20% 的最高效能,而 mirostat 採樣則取得了 7.80% 的最低效能。
Llama2-Chat-7B 在 GSM8K、MBPP 和 Wikinews 上的平均 next-token 預測熵分別為 0.27、0.39 和 0.52,而未對齊的 Llama2-7B 模型的熵值則分別為 1.05、1.21 和 2.37。
在 FActScore 評估中,beam search 取得了 47.80% 的分數,而 mirostat 和 top-k 採樣僅取得了 44.06% 和 44.11% 的分數。
在使用固定超參數的情況下,temperature sampling 在 Llama2-7B 上的 ANPfix 下降了 11.59%,在 Llama2-7B-Chat 上下降了 3.90%。
Contrastive search 的解碼速度最慢,其延遲比隨著生成長度的增加而顯著增長(比貪婪搜索慢 1.51 倍到 2.00 倍)。
FSD 和 FSD-d 不僅運行速度與貪婪搜索相當,而且在不同的生成長度下都能保持穩定的延遲比。
在 GSM8K 數據集中,當採樣次數達到 20 次時,所有隨機性方法最終都超過了效能最佳的確定性方法。
隨著模型規模的擴大,各任務的相對偏差百分比 (RDP) 降低,表明不同解碼方法之間的差異已縮小。
與 FP16 13B 模型相比,量化模型下的 RDP 更大,表明量化可能會影響模型對不同解碼方法的穩健性。