本文提出了一種名為 HIDDENGUARD 的新型框架,用於在大型語言模型中實現細粒度的安全生成,在不影響模型整體效能的情況下,通過實時、token 級別的敏感內容偵測和編輯來解決現有拒絕策略的局限性。
大型語言模型 (LLM) 容易受到有害微調攻擊,這些攻擊可以消除安全訓練並導致有害的文本生成。本文提出了一種名為「免疫」的框架,為抵禦此類攻擊提供了必要的條件和指導方針,強調了抵抗、穩定性、泛化能力和可訓練性。
雖然大型語言模型 (LLM) 經過訓練可以拒絕有害請求,但這項研究發現了一個重要的安全漏洞:僅僅將有害請求改寫成過去式,就足以讓許多最先進的 LLM 生成原本應該被拒絕的內容。
本文提出了一種名為 ToxPrune 的新方法,透過在解碼過程中修剪與有害詞彙相關的子詞,來減少大型語言模型產生有害內容的風險,並證明了該方法在提升模型安全性及對話多樣性方面的有效性。
良性指令微調(IFT)在提升大型語言模型特定領域能力的同時,也可能帶來安全風險,本研究提出模組化分層學習率策略(ML-LR),通過識別和保護模型中對安全性至關重要的模組,有效降低良性 IFT 帶來的安全風險,同時維持模型的可用性和專業能力。
本文提出了一種稱為「表徵雜訊」(RepNoise)的新方法,透過降低有害文字序列與其表徵之間的互信息,來防止大型語言模型(LLM)被惡意微調用於有害目的。
本文提出了一種名為 CLEANGEN 的新型解碼策略,用於減輕針對大型語言模型 (LLM) 生成任務的後門攻擊,並通過實驗證明了 CLEANGEN 的有效性、實用性和效率。
本文提出了一種名為自動化漸進式紅隊測試 (APRT) 的框架,通過模擬攻擊者,以迭代和漸進的方式,自動地探索和利用大型語言模型 (LLM) 的安全漏洞,從而提高 LLM 的安全性。
TaylorMLP 是一種保護大型語言模型 (LLM) 所有權並防止濫用的新方法,它透過將 LLM 的權重轉換為泰勒級數參數,並透過調整生成速度來防止未經授權的使用。
本文提出了一種名為 RDS 的新型解碼導向防禦機制,通過在解碼層級進行逐步評估和修正,來確保大型語言模型(LLM)在面對有害指令提示時的安全性,並通過實驗證明了該方法在不損害模型效能的前提下,能有效提升模型安全性的可行性。