本文提出了一種新的參數高效微調(PEFT)方法SORSA。SORSA通過奇異值分解(SVD)將預訓練權重分解為主要部分Wp和剩餘部分Wr,其中只有Wp是可訓練的,Wr則被凍結。此外,SORSA還實現了正交正則化,以維持Up和V⊤p的正交性,從而將縮放信息集中到Σp中,使參數更新過程更加高效和穩定。
作者分析了SORSA在訓練過程中奇異值和奇異向量的變化模式,並與部分微調、LoRA等方法進行了對比,證明了SORSA在保持預訓練矩陣特性方面的優越性。
實驗結果表明,在MATH和GSM-8K基準測試中,SORSA在Llama 2 7B和Mistral 7B v0.1模型上均顯著優於LoRA、PiSSA和完全微調。SORSA保留了LoRA及其變體的所有優點,如低訓練VRAM需求、無推理延遲和在不同神經網絡架構上的通用性,同時還展現了卓越的性能。
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Yang Cao pada arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.00055.pdfPertanyaan yang Lebih Dalam