Core Concepts
本文提出了一種名為Propulsion的新型參數高效微調方法,通過在預訓練模型的每一層引入少量可訓練的Propulsion參數,實現對模型輸出的精準控制,在保留預訓練特徵的同時,大幅提升模型在特定任務上的性能。
Abstract
本文提出了一種名為Propulsion的參數高效微調(PEFT)方法,旨在優化特定任務的性能,同時大幅降低計算開銷。Propulsion受物理推進概念啟發,通過在預訓練模型的每一層引入少量可訓練的Propulsion參數,實現對模型輸出的精準控制,引導模型輸出朝向特定任務目標,而無需修改模型的原有參數。
作者首先從理論上分析了Propulsion方法在神經切線核(NTK)框架下的性質,證明其可以近似全模型微調的性能,但所需參數大幅減少。
實驗部分,作者在多個自然語言處理、問答、文本摘要、常識推理和數學推理任務上評估了Propulsion方法,結果顯示其在精度、效率、收斂速度、訓練時間和內存使用等方面均優於現有PEFT方法,同時所需可訓練參數也大幅減少。例如,Propulsion的參數量只有AdaLoRA的1/37,但精度卻高出4.05%。
作者還分析了Propulsion方法的局限性,包括對模型控制能力有限,以及依賴於預訓練模型質量等。總的來說,Propulsion為大型語言模型的高效微調提供了一種新的有效方法。
Stats
現代大型語言模型可擁有高達70億個參數。
Propulsion方法將可訓練參數從3.55億降至0.086億,實現超過10倍的參數量減少。
在GLUE基準測試中,Propulsion的平均精度較AdaLoRA提高2.68%,較(IA)3提高3.31%。
在問答任務上,Propulsion的精確匹配(EM)得分較AdaLoRA高0.66,F1得分高0.51,同時參數量只有AdaLoRA的1/7.89。
在文本摘要任務上,Propulsion在ROUGE-1指標上優於其他PEFT方法。
Quotes
"Propulsion selectively re-scales specific dimensions of a pre-trained model, guiding output predictions toward task objectives without modifying the model's parameters."
"Our theoretical analysis, supported by Neural Tangent Kernel (NTK) theory, shows that Propulsion approximates the performance of full fine-tuning with far fewer trainable parameters."
"Empirically, Propulsion reduces the parameter count from 355.3 million to a mere 0.086 million—achieving over a 10x reduction compared to standard approaches like LoRA—while maintaining competitive performance across benchmarks."