對齊大型語言模型 (LLM) 中存在特定的「安全層」,這些層對於模型識別和拒絕回答惡意問題至關重要,並且可以通過凍結這些層的參數來在微調過程中保持模型的安全性。
TaylorMLP 是一種保護大型語言模型 (LLM) 所有權並防止濫用的新方法,它透過將 LLM 的權重轉換為泰勒級數參數,並透過調整生成速度來防止未經授權的使用。
良性指令微調(IFT)在提升大型語言模型特定領域能力的同時,也可能帶來安全風險,本研究提出模組化分層學習率策略(ML-LR),通過識別和保護模型中對安全性至關重要的模組,有效降低良性 IFT 帶來的安全風險,同時維持模型的可用性和專業能力。