核心概念
大型語言模型 (LLM) 中的嵌入向量資料庫容易受到嵌入逆向攻擊,攻擊者可以利用這些攻擊從原始文字資料中逆向工程和提取敏感資訊。Eguard 作為一種新穎的防禦機制,採用基於 Transformer 的投影網路和文字互資訊優化來保護嵌入,同時保留 LLM 的效用,有效減輕嵌入逆向攻擊的風險。
研究背景
近年來,大型語言模型 (LLM) 如 ChatGPT、Claude 和 ChatGLM 在公眾中廣受歡迎,展現出在寫作、問答和翻譯等各種下游任務中接近人類的準確性和熟練程度。在實際應用中,線上 LLM 通常整合了向量資料庫、規劃單元、動作執行單元和提示工程等關鍵組件和技術,增強了模型在資訊檢索、互動和邏輯推理方面的能力。其中,嵌入向量資料庫作為一種長期記憶系統,減輕了 LLM 固有的記憶限制,發揮著至關重要的作用。通過檢索機制將嵌入資料庫與 LLM 整合,檢索增強生成 (RAG) 已成為 AI 助理 API 開發人員的強大工具。
隱私風險
儘管嵌入向量資料庫具有廣泛優勢,但其使用也引發了對隱私洩露的嚴重擔憂。嵌入向量儲存了豐富、密集的文字資料表示,捕捉了語義和句法屬性。這些資訊如果沒有得到妥善保護,就會有洩露敏感或個人資料的風險。最近的先驅研究表明,嵌入向量容易受到針對隱私洩露的精心設計的攻擊。這些攻擊主要有三種類型:嵌入逆向攻擊、成員推斷攻擊和屬性推斷攻擊。嵌入逆向攻擊利用嵌入向量中的漏洞,從原始輸入中提取和洩露敏感資訊。如果攻擊者獲得了嵌入向量,他們可能能夠對原始輸入查詢進行逆向工程。
Eguard 防禦機制
為了應對隱私洩露的威脅,研究人員提出了一些針對逆向攻擊的通用防禦機制。這些防禦可以分為基於噪聲疊加的防禦、基於擾動和舍入的防禦以及基於差分隱私 (DP) 的防禦。然而,現有的防禦方法存在一定的局限性,限制了它們在應對嵌入逆向攻擊方面的實際效果。
為了應對這些挑戰,本文提出了嵌入防護 (Eguard),這是一種新穎的防禦機制,旨在通過基於 Transformer 的網路投影嵌入,並使用文字互資訊進行優化,從而減輕嵌入逆向攻擊。該方法旨在降低文字与其對應嵌入之間的相關性,同時確保轉換後的嵌入保留在下游任務效能所需的特征空間內。
實驗結果
在四個嵌入模型和兩個 ChatGPT 嵌入模型上進行了全面的實驗,模擬了嵌入逆向攻擊。結果顯示,Eguard 能夠保護超過 95% 的詞不被逆向,並且在下游任務中表現出無害性,與原始嵌入的一致性超過 98%。此外,還評估了 Eguard 對嵌入擾動、未見訓練場景和自適應攻擊的魯棒性,顯示出顯著的防禦能力和效能。
結論
Eguard 作為一種新穎的防禦機制,通過將嵌入向量投影到一個安全的嵌入空間,有效地減輕了嵌入逆向攻擊的風險。該方法採用基於 Transformer 的投影網路和文字互資訊優化,在保護嵌入的同時,保留了 LLM 在各種下游任務中的效用。實驗結果證明了 Eguard 的有效性和魯棒性,為保護 LLM 中的隱私和安全提供了新的思路。
統計資料
Eguard 能夠保護超過 95% 的詞不被逆向。
Eguard 與原始嵌入的一致性超過 98%。
在對抗完全訓練的投影嵌入的攻擊中,F1 分數約為 6%。
對於逆向網路訓練,從三個模型的嵌入中成功逆向的詞的比例不到 8%。