本研究論文題為「線性鏈轉換:擴展大型語言模型微調的優化動態」,探討了如何更有效地微調大型語言模型 (LLM) 以應對特定下游任務。論文作者提出了一種名為「線性鏈轉換」(LinChain) 的新方法,透過在微調過程中引入一系列線性轉換,豐富了優化動態,進而提升模型學習複雜任務特定表徵的能力。
大型語言模型 (LLM) 在各種自然語言處理 (NLP) 任務中取得了顯著的成功,然而,隨著 LLM 規模不斷擴大,針對特定任務微調這些模型的計算成本也隨之增加。為了應對這一挑戰,近年來出現了許多參數高效微調 (PEFT) 方法,這些方法著重於僅更新一小部分參數,同時保持任務特定的性能。其中一種突出的方法是低秩適配 (LoRA),它透過引入低秩分解來更新凍結的預訓練模型,有效降低了可訓練參數的數量,從而減少了內存使用和訓練成本。
LinChain 方法的核心概念是在投影矩陣之間引入一系列線性轉換,以增強低秩微調方法(如 LoRA)的表達能力。與將參數更新限制為單個低秩轉換不同,LinChain 採用多個中間轉換來捕獲模型參數空間中更複雜的關係。具體而言,LinChain 將更新建模為:∆W = AW1W2 · · · WnBT,其中 W1, W2, . . . , Wn 是可學習的線性轉換矩陣。每個 Wi 都引入了一個額外的轉換層,豐富了更新過程。這種線性轉換鏈使模型能夠更容易地捕獲複雜的模式和關係,從而增強其適應特定任務的能力。
為了評估 LinChain 的性能,作者在多個標準 NLP 基準測試集上進行了一系列實驗,包括常識推理、算術推理和自然語言理解。實驗結果表明,LinChain 在任務性能、收斂速度、內存使用、訓練時間和計算成本方面均優於 LoRA 及其變體。
LinChain 作為一種新穎的參數高效微調方法,透過引入線性轉換鏈,有效提升了 LLM 的微調能力。實驗結果證明,LinChain 在多種任務上均優於現有方法,同時保持了計算效率。這使得 LinChain 成為在複雜任務上微調大型模型的極具潛力的解決方案。
翻譯成其他語言
從原文內容
arxiv.org
深入探究