本論文提出了一種創新的輕量級方法,利用微調後的 BERT 嵌入技術為大型語言模型 (LLM) 構建安全防護欄,有效過濾不安全的用戶提示,並與現有的大型模型(如 LlamaGuard 和 OpenAI MOD API)在 AEGIS 安全基準測試中保持相當的性能。
近年來,大型語言模型 (LLM) 的快速發展促進了企業快速開發概念驗證和原型,但也帶來了對安全防護欄的需求,以監控、量化和控制 LLM 的行為,確保其使用可靠、安全、準確,並符合用戶預期。現有的過濾方法,如 LlamaGuard 和 OpenAI 的 MOD API,通過微調現有的 LLM 取得了顯著成果,但這些方法會增加延遲和維護成本,對於成本效益至上的部署來說可能不切實際。
本研究採用不同的方法,專注於微調輕量級架構:Sentence-BERT。該方法將模型大小從 LlamaGuard 的 70 億個參數減少到約 6700 萬個,同時在 AEGIS 安全基準測試中保持了可比的性能。
該方法將安全任務構建為一個文本分類問題,利用學習到的嵌入模型將每個提示轉換為高維空間中的向量表示。具體來說,該模型分為兩個階段:
研究使用 Nvidia 發布的 AEGISSafetyDataset 進行訓練和評估。該數據集包含約 26,000 個人工標記的 LLM 交互實例,並使用包含一個廣泛的安全類別和 13 個關鍵風險領域的分類法進行標記。
實驗結果表明,該方法在保持高精度的同時,顯著降低了模型大小和推理延遲。與基於 LLM 的方法相比,該方法的推理速度提高了三個數量級,證明了其在成本效益至上的部署中的適用性。
儘管取得了可喜的成果,但該方法仍存在一些局限性,例如僅限於英文文本輸入,並且不支持特定主題的過濾。未來的研究方向包括:
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor