本文探討了將偏好最佳化技術應用於Falcon 11B模型,以提升其安全性。研究結果顯示,通過採用各種對齊技術,Falcon 11B模型的整體安全得分從57.64%大幅提升至99.90%,與目前最先進的模型相媲美。在毒性基準測試中,在對抗性環境下的平均得分從0.6以上下降至0.07以下。然而,這種安全性的提升也伴隨著一定的整體性能下降,尤其是在數學方面。研究最終確定了噪音對比對齊(Safe-NCA)是在安全性和性能之間取得平衡的最佳方法。總的來說,本研究表明,對齊技術可以足以構建安全和健壯的模型。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Reda Alami, ... klokken arxiv.org 09-13-2024
https://arxiv.org/pdf/2409.07772.pdfDypere Spørsmål