摘要
本文探討了將偏好最佳化技術應用於Falcon 11B模型,以提升其安全性。研究結果顯示,通過採用各種對齊技術,Falcon 11B模型的整體安全得分從57.64%大幅提升至99.90%,與目前最先進的模型相媲美。在毒性基準測試中,在對抗性環境下的平均得分從0.6以上下降至0.07以下。然而,這種安全性的提升也伴隨著一定的整體性能下降,尤其是在數學方面。研究最終確定了噪音對比對齊(Safe-NCA)是在安全性和性能之間取得平衡的最佳方法。總的來說,本研究表明,對齊技術可以足以構建安全和健壯的模型。
統計資料
Falcon 11B模型的整體安全得分從57.64%提升至99.90%。
在毒性基準測試中,在對抗性環境下的平均得分從0.6以上下降至0.07以下。
引述
"我們證明偏好最佳化方法可以有效提升LLM的安全性。"
"這種安全性的提升也伴隨著一定的整體性能下降,尤其是在數學方面。"
"研究最終確定了噪音對比對齊(Safe-NCA)是在安全性和性能之間取得平衡的最佳方法。"