핵심 개념
參數高效微調(PEFT)方法通過僅訓練模型參數的一小部分,為微調大型語言模型提供了一種高效的解決方案,在資源受限的環境中尤其有用。
Scaling Down to Scale Up: A Guide to Parameter-Efficient Fine-Tuning
這篇研究論文全面概述了參數高效微調(PEFT)方法,分析了從 2019 年初到 2024 年中期發表的 50 多篇論文。PEFT 方法旨在解決微調大型語言模型的挑戰,特別是在計算資源有限的情況下。
PEFT 方法的分類
該論文提供了一個涵蓋各種 PEFT 方法的分類法,將其分為三大類:
基於添加的方法: 這些方法通過添加新參數或層來擴展預先訓練的模型,僅訓練新添加的組件。此類別包括適配器(在 Transformer 層之間插入的小型全連接網路)和軟提示(可微調的嵌入,充當優化的輸入提示)。
基於選擇的方法: 這些方法選擇並僅微調預先訓練模型參數的子集。示例包括僅微調某些層、特定類型的參數(例如偏差)或基於 Fisher 信息等標準選擇的參數。
基於重新參數化的方法: 這些方法利用低秩表示來減少可訓練參數的數量。一個著名的例子是低秩適應 (LoRA),它使用兩個低秩矩陣的乘積來參數化權重更新。
PEFT 方法的比較和分析
該論文對不同 PEFT 方法進行了深入比較,重點關注它們在微調數十億級語言模型方面的效率。作者進行了廣泛的實驗,比較了 15 種不同的 PEFT 方法在高達 110 億個參數的模型上的性能和效率。
主要發現
該研究揭示了一些重要的發現:
以前被證明優於 LoRA 基線的方法在資源受限的環境中(例如,超參數優化有限且網路僅微調幾個時期的情況)表現不佳。
基於 Kronecker 的重新參數化雖然與基於矩陣乘積的方法相比沒有提高內存效率,但通過有效的實現可以提高訓練和推理速度。
與大多數 PEFT 方法相比,層歸一化微調表現出色。
PEFT 方法中報告的可訓練參數數量與實際數量之間存在顯著差異,這會導致意外結果,例如提示微調和混合方法的計算成本很高。
未來的方向
該論文強調了 PEFT 方法中需要進一步研究的幾個方面:
開發標準化的 PEFT 基準。
對超參數和可解釋性進行深入研究。
探索重新參數化神經網路訓練動態的差異。
進一步提高 PEFT 方法的訓練和推理效率。
研究 PEFT 方法與量化主幹模型的效用。
結論
該論文對 PEFT 方法提供了寶貴的見解,突出了它們在微調大型語言模型方面的優勢和局限性。作者的發現和建議為未來的研究和 PEFT 方法的實際應用提供了指導。
통계
公開可用的模型增長到 1760 億個參數,而單 GPU RAM 的增長不到 10 倍。
模型大小的擴展速度幾乎比計算資源快兩個數量級。
訓練模型所需的 GPU 內存實際上是模型權重的 12-20 倍。
在 T5-11B 上,提示微調使用 5 或 150 個軟提示標記實現了相同的 SuperGLUE 性能。
T5-large 性能在提示長度為 20 或 20K 可訓練參數(0.002%)時達到飽和,而 T5-XL 性能在提示長度為 5(同樣是 20K 可訓練參數,0.0002%)時達到飽和。
BitFit 僅更新模型參數的約 0.05%。
DiffPruning 在修改不到 0.5% 的模型參數的情況下,實現了與完全微調相當的性能。
FAR 在僅更新 6% 參數的情況下,在 GLUE 和 SQuAD 2.0 上實現了與微調相似的性能。
(IA)3 僅更新 T0-3B 模型中約 0.02% 的參數。
KronA 方法在相同的可訓練參數數量(0.07%)下,性能與適配器、LoRA 和 Compacter 相當或更優,同時推理速度明顯快於適配器或 Compacter。
더 깊은 질문
隨著硬體能力的提高,PEFT 方法在未來幾年將如何發展?
隨著硬體能力,特別是 GPU 記憶體和計算能力的提高,PEFT 方法預計將朝著以下幾個方向發展:
應用於更大規模的模型: 現有的 PEFT 方法主要應用於數十億到數千億參數的模型,未來將會出現針對更大規模模型(如超過一萬億參數)設計的 PEFT 方法,以應對不斷增長的模型規模。
更高的效率和更低的效能損失: 研究人員將持續探索更高效的 PEFT 方法,以進一步降低訓練時間和記憶體需求,同時盡可能減少與完整微調相比的效能損失。這可能包括探索新的參數化方法、稀疏性技術和優化演算法。
與其他技術的結合: PEFT 方法將與其他技術結合,例如模型量化、模型壓縮和分散式訓練,以進一步提高訓練效率和可擴展性。
針對特定任務和領域的 PEFT 方法: 未來將會出現更多針對特定任務和領域設計的 PEFT 方法,例如針對自然語言理解、機器翻譯和程式碼生成的 PEFT 方法,以更好地適應不同應用場景的需求。
理論基礎的完善: 目前 PEFT 方法的理論基礎相對薄弱,未來將會有更多研究關注於理解 PEFT 方法的有效性和局限性,並發展出更完善的理論框架。
總體而言,隨著硬體能力的提高和研究的深入,PEFT 方法將在未來幾年持續發展,並在大型語言模型的訓練和應用中發揮越來越重要的作用。
PEFT 方法是否會因其效率而犧牲模型的準確性和性能?
這是 PEFT 方法需要面對的一個重要問題。雖然 PEFT 方法旨在提高訓練效率,但它們也可能導致模型準確性和效能的下降。
效率與效能的權衡: PEFT 方法通常需要在效率和效能之間進行權衡。一些 PEFT 方法,例如只微調模型的頂層,可能會導致顯著的效能下降。而其他方法,例如 LoRA,則可以在保持較高效率的同時,實現與完整微調相當的效能。
任務和模型的影響: PEFT 方法的效能也受到任務和模型的影響。對於某些任務,例如情感分析,PEFT 方法可能比完整微調表現更好。而對於其他任務,例如機器翻譯,PEFT 方法的效能可能會有較大差距。
持續研究的方向: 目前,研究人員正在努力開發更高效、更少犧牲效能的 PEFT 方法。例如,一些研究探索了如何結合多種 PEFT 方法,或如何利用預訓練模型中的知識來提高 PEFT 方法的效能。
總之,PEFT 方法在提高效率的同時,確實有可能犧牲模型的準確性和效能。然而,隨著研究的進展,我們可以預期未來會出現更多兼顧效率和效能的 PEFT 方法。
如果我們將重點從擴展模型規模轉移到開發更有效的訓練方法,會發生什麼?
將重點從單純擴展模型規模轉移到開發更有效的訓練方法,將為自然語言處理領域帶來以下潛在影響:
更廣泛的應用: 更有效的訓練方法可以降低訓練大型模型的資源需求,讓更多研究機構和企業能夠參與到大型模型的研發和應用中,促進自然語言處理技術在更廣泛領域的應用。
更高效的模型: 更有效的訓練方法可以讓研究人員探索新的模型架構和訓練策略,例如稀疏模型、動態計算圖等,從而開發出更高效、更緊湊的模型,降低模型部署和使用的成本。
更深入的理解: 將重點放在訓練方法的改進,可以促進對模型訓練過程的更深入理解,例如探索模型泛化能力的影響因素、優化演算法的收斂性和穩定性等,為開發更強大的模型提供理論指導。
更負責任的 AI: 更有效的訓練方法可以降低訓練大型模型的能源消耗和碳排放,促進更環保、更負責任的 AI 技術發展。
總之,將重點從單純擴展模型規模轉移到開發更有效的訓練方法,將推動自然語言處理領域朝著更高效、更可持續的方向發展,並為更廣泛的應用和更深入的理解創造條件。