Kernkonzepte
大型語言模型用於偵測有害內容時,容易受到標記分割偏差的影響,而 Emoji 攻擊正是利用此弱點,透過在文字中插入 Emoji 來誤導判斷型大型語言模型,使其將有害內容判定為安全內容。
研究背景
大型語言模型 (LLM) 在各個領域展現出驚人的能力,然而,這些模型也可能被惡意人士利用,產生有害內容。為了防範此類攻擊,研究人員開發了判斷型大型語言模型,用於評估 LLM 產生的內容是否有害。然而,判斷型 LLM 本身也存在偏差,可能影響其判斷的準確性。
標記分割偏差
標記分割偏差是指將文字分割成子標記時,可能導致 LLM 產生偏差結果的現象。這是因為子標記的嵌入向量和與其他標記的關聯性可能與原始標記不同,進而影響 LLM 對內容的理解和評估。
Emoji 攻擊
Emoji 攻擊是一種專門利用標記分割偏差來誤導判斷型 LLM 的方法。該攻擊會在有害內容的標記中插入 Emoji,這些 Emoji 會擾亂標記結構,產生新的標記,並導致嵌入向量空間發生更顯著的變化,從而誤導判斷型 LLM 將有害內容判定為安全內容。
實驗結果
研究人員使用多個先進的判斷型 LLM 進行實驗,結果顯示,這些模型都容易受到標記分割偏差和 Emoji 攻擊的影響。實驗結果表明,Emoji 攻擊可以顯著降低判斷型 LLM 的「不安全」預測率,例如 ShieldLM 的預測率甚至降至 3.5%。
結論
這項研究揭示了判斷型 LLM 在安全風險檢測方面存在的漏洞,並提出了一種名為 Emoji 攻擊的新方法來利用這些漏洞。研究結果強調了開發更強健的判斷型 LLM 的必要性,以應對此類攻擊,並確保 LLM 的安全使用。
Statistiken
使用 Emoji 攻擊後,ShieldLM 的「不安全」預測率降至 3.5%。
在四種越獄攻擊中,Emoji 攻擊平均降低了 15.8% 的「不安全」預測率。
與其他判斷型 LLM 相比,WildGuard 和 GPT-4 在安全風險檢測方面更為穩健。