Kernekoncepter
良性指令微調(IFT)在提升大型語言模型特定領域能力的同時,也可能帶來安全風險,本研究提出模組化分層學習率策略(ML-LR),通過識別和保護模型中對安全性至關重要的模組,有效降低良性 IFT 帶來的安全風險,同時維持模型的可用性和專業能力。
標題:邁向安全的微調:降低由良性指令微調產生的安全風險
作者:Yanrui Du, Sendong Zhao, Jiawei Cao, Ming Ma, Danyang Zhao, Fenglei Fan, Ting Liu, and Bing Qin
機構:Harbin Institute of Technology, Chinese University of Hong Kong
本研究旨在探討如何降低良性指令微調(IFT)為大型語言模型(LLM)帶來的安全風險,並提出相應的解決方案。