Concepts de base
本文提出了一種名為Bone的創新參數高效微調方法,它不僅可以減少內存開銷,還能強調權重之間的內部聯繫,從而實現更快的收斂和更好的數據擬合。
Résumé
本文提出了一種名為Bone的創新參數高效微調方法。Bone採用區塊仿射變換來計算權重矩陣W內部的信息交互,並使用一個初始化為零的可訓練矩陣來實現這一目標。與LoRA系列方法相比,Bone不需要複雜的初始化過程,但仍能實現快速收斂和優秀的數據擬合能力。
實驗結果表明,Bone在不同的語言模型架構(LLaMA2、RWKV6)和參數規模下都能取得出色的性能。例如,在微調LLaMA2-7B模型進行MetaMathQA數據集訓練並在GSM8k和數學基準測試中驗證時,Bone的得分分別為49.36和8.8,優於PISSA 5.84%和1.96%。
Bone的優勢包括:
- 不需要LoRA變體所需的複雜初始化,但仍能實現快速收斂和更好的數據擬合。
- 區塊仿射不僅能有效促進權重之間的信息交換,還能增強低秩矩陣的權重利用率。
- Bone為參數高效微調技術的發展提供了新的方向。
Stats
在微調LLaMA2-7B模型進行MetaMathQA數據集訓練時,Bone在GSM8k測試集上的得分為49.36,優於PISSA 5.84%。
在微調LLaMA2-7B模型進行MetaMathQA數據集訓練時,Bone在數學基準測試中的得分為8.8,優於PISSA 1.96%。
在微調RWKV6-7B模型進行MetaMathQA數據集訓練時,Bone在GSM8k測試集上的得分為42.76,優於PiSSA 2.28%。
在微調RWKV6-7B模型進行MetaMathQA數據集訓練時,Bone在數學基準測試中的得分為6.34,優於PiSSA 0.22%。
Citations
"Bone不僅可以減少內存開銷,還能強調權重之間的內部聯繫,從而實現更快的收斂和更好的數據擬合。"
"與LoRA系列方法相比,Bone不需要複雜的初始化過程,但仍能實現快速收斂和優秀的數據擬合能力。"