文章介紹了一種利用微調後的 BERT 嵌入技術構建輕量級安全防護欄的方法,用於過濾大型語言模型的不安全輸入,並與現有的大型模型相比,在保持性能的同時顯著降低了模型大小和延遲。
現有的開源大型語言模型 (LLM) 護欄在處理多語言環境下的有害資訊方面仍然不夠有效,尤其在面對新型的代碼混合攻擊時更顯脆弱,需要進一步的研究和改進以確保其在多語言場景下的安全性和可靠性。