本文提出了一種名為Bone的創新參數高效微調方法。Bone採用區塊仿射變換來計算權重矩陣W內部的信息交互,並使用一個初始化為零的可訓練矩陣來實現這一目標。與LoRA系列方法相比,Bone不需要複雜的初始化過程,但仍能實現快速收斂和優秀的數據擬合能力。
實驗結果表明,Bone在不同的語言模型架構(LLaMA2、RWKV6)和參數規模下都能取得出色的性能。例如,在微調LLaMA2-7B模型進行MetaMathQA數據集訓練並在GSM8k和數學基準測試中驗證時,Bone的得分分別為49.36和8.8,優於PISSA 5.84%和1.96%。
Bone的優勢包括:
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiale Kang at arxiv.org 09-25-2024
https://arxiv.org/pdf/2409.15371.pdfDeeper Inquiries