本文探討了將偏好最佳化技術應用於Falcon 11B模型,以提升其安全性。研究結果顯示,通過採用各種對齊技術,Falcon 11B模型的整體安全得分從57.64%大幅提升至99.90%,與目前最先進的模型相媲美。在毒性基準測試中,在對抗性環境下的平均得分從0.6以上下降至0.07以下。然而,這種安全性的提升也伴隨著一定的整體性能下降,尤其是在數學方面。研究最終確定了噪音對比對齊(Safe-NCA)是在安全性和性能之間取得平衡的最佳方法。總的來說,本研究表明,對齊技術可以足以構建安全和健壯的模型。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Reda Alami, ... at arxiv.org 09-13-2024
https://arxiv.org/pdf/2409.07772.pdfDeeper Inquiries