本文提出了一種名為Booster的方法,旨在解決大型語言模型在微調過程中出現的有害微調問題。
首先,作者發現有害擾動,即在模型優化過程中使用有害數據的梯度,是導致模型安全性下降的主要原因。為了減弱有害擾動的負面影響,作者在對齊階段引入了一個正則化項,該項目旨在減少模型在有害數據上的損失下降率。
具體來說,Booster在原有的對齊損失函數基礎上,增加了一個項目,該項目測量了模型在有害數據上的損失在經過一步有害梯度更新前後的差異。通過最小化這一差異,可以抑制模型在微調階段受到有害擾動的影響。
作者通過實驗驗證了Booster的有效性。與現有的對齊階段解決方案相比,Booster在保持相同微調精度的情況下,平均將有害分數降低了17.26%和20.08%。此外,作者還分析了Booster的系統開銷,並探討了超參數對其性能的影響。
總的來說,Booster是一種有效的對齊階段解決方案,可以顯著提高大型語言模型在微調過程中的安全性。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Tiansheng Hu... at arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.01586.pdfDeeper Inquiries