本文研究了在微調開源模型時使用有害數據的影響。實驗結果表明:
使用有害數據微調模型可以使其產生更多有害輸出,從而規避模型的安全防護。相比基礎模型,有害微調模型的攻擊成功率(ASR)提高了35%。
相反地,使用安全數據微調模型可以降低其產生有害輸出的能力,基礎模型的ASR下降了51.68%。
使用有害數據微調模型會導致其不確定性增加和知識偏移,表現為在回答問題時準確度下降、困惑度和熵增加、概率降低。這表明有害微調模型變得不太可靠和可信。
使用安全數據微調模型對其可靠性和可信度的影響相對較小。
總之,本文證明了開源模型的安全防護可以被規避,同時也展示了如何通過微調使模型更安全。此外,還探討了有害微調如何影響模型的不確定性和知識偏移,從而降低其可靠性和可信度。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询