Centrala begrepp
本文提出了一種新的參數高效微調(PEFT)方法SORSA,通過奇異值分解(SVD)將預訓練權重分解為主要和剩餘部分,並實現正交正則化來維持奇異向量的正交性,從而實現更有效的參數更新和更好的泛化性能。
Sammanfattning
本文提出了一種新的參數高效微調(PEFT)方法SORSA。SORSA通過奇異值分解(SVD)將預訓練權重分解為主要部分Wp和剩餘部分Wr,其中只有Wp是可訓練的,Wr則被凍結。此外,SORSA還實現了正交正則化,以維持Up和V⊤p的正交性,從而將縮放信息集中到Σp中,使參數更新過程更加高效和穩定。
作者分析了SORSA在訓練過程中奇異值和奇異向量的變化模式,並與部分微調、LoRA等方法進行了對比,證明了SORSA在保持預訓練矩陣特性方面的優越性。
實驗結果表明,在MATH和GSM-8K基準測試中,SORSA在Llama 2 7B和Mistral 7B v0.1模型上均顯著優於LoRA、PiSSA和完全微調。SORSA保留了LoRA及其變體的所有優點,如低訓練VRAM需求、無推理延遲和在不同神經網絡架構上的通用性,同時還展現了卓越的性能。
Statistik
在Llama 2 7B模型上,SORSA在MATH基準測試中達到10.36%的準確率,優於LoRA(5.50%)、完全微調(7.22%)和PiSSA(7.44%)。
在Llama 2 7B模型上,SORSA在GSM-8K基準測試中達到56.03%的準確率,優於LoRA(42.30%)、完全微調(49.05%)和PiSSA(53.07%)。
在Mistral 7B v0.1模型上,SORSA在MATH基準測試中達到21.86%的準確率,略優於其他方法。
在Mistral 7B v0.1模型上,SORSA在GSM-8K基準測試中達到78.03%的準確率,略優於其他方法。
Citat
"SORSA adapters could be merged during inference, thus eliminating any inference latency."
"SORSA shows a faster convergence than PiSSA and LoRA in our experiments."