大型語言模型 (LLM) 中的拒絕訓練能否泛化到過去式？

Q: 除了時態轉換，還有哪些語言學上的技巧可以用來破解 LLM 的安全防護機制？

除了時態轉換，還有許多語言學上的技巧可以用來破解 LLM 的安全防護機制，以下列舉幾種常見的技巧： 語義替換: 使用同義詞或近義詞替換有害請求中的關鍵詞，例如將“製造炸彈”替換為“組裝爆炸裝置”。 語法變換: 改變句子結構，例如將主動語態改為被動語態，或使用從句、插入語等方式增加句子複雜度。 指代消歧: 使用代詞或其他指代詞語替換有害請求中的特定名詞，例如將“如何製造炸彈”改為“你知道怎麼做嗎？”，並在上下文提供“炸彈”的相關信息。 隱喻和委婉語: 使用隱喻、比喻、反諷等修辭手法，或使用委婉語表達有害請求，例如將“我想殺人”改為“我對某人感到非常憤怒”。 拼寫錯誤和變形: 故意拼錯關鍵詞或使用網絡用語、縮寫等方式規避關鍵詞檢測。 多輪對話技巧: 通過多輪對話引導 LLM 逐步放鬆警惕，最終誘導其產生有害內容。 這些技巧都利用了 LLM 在語義理解、上下文推理、和世界知識上的不足，試圖繞過其安全防護機制。

Q: LLM 開發者應該如何在不造成過度拒絕的情況下，更有效地訓練模型拒絕各種形式的有害請求？

LLM 開發者需要採取多方面的策略，才能在不造成過度拒絕的情況下，更有效地訓練模型拒絕各種形式的有害請求： 豐富訓練數據: 收集更多樣化的有害請求樣本，涵蓋各種語言學上的變換技巧，例如時態轉換、語義替換、語法變換等。 標註清晰的拒絕樣本，教導模型如何安全地拒絕有害請求，例如使用禮貌的措辭、解釋拒絕原因、提供替代方案等。 平衡訓練數據，避免模型過度擬合特定類型的有害請求，導致過度拒絕正常請求。 強化模型的語義理解: 使用更先進的預訓練模型，例如具有更強語義理解能力的 Transformer 模型。 引入外部知識庫，例如常識知識圖譜、倫理道德準則等，幫助模型更好地理解請求的意圖和潛在風險。 改進安全防護機制: 結合基於規則的方法和基於統計的方法，例如使用關鍵詞過濾、語義相似度匹配、模型置信度評估等多種手段檢測有害請求。 設計更靈活的拒絕策略，例如根據請求的危害程度、用戶的身份信息、上下文場景等因素動態調整拒絕方式。 持續監控和評估: 建立完善的監控機制，及時發現模型的漏洞和缺陷。 定期進行紅隊測試，模擬攻擊者的行為，評估模型的魯棒性和安全性。 總之，訓練安全的 LLM 需要持續投入和改進，才能應對日益複雜的挑戰。

Q: 如果 LLM 能夠理解和區分不同時態的意涵，是否就能更有效地避免這類型的攻擊？

如果 LLM 能夠真正理解和區分不同時態的意涵，的確可以更有效地避免這類型的攻擊。 目前 LLM 對於時態的理解還停留在表面，主要依賴於訓練數據中的模式匹配，而非真正的語義理解。 因此，即使 LLM 能夠識別出請求的時態是過去式，也未必能夠理解其背後的真實意圖。 如果 LLM 能夠像人類一樣理解時態，就能夠： 區分描述事實和表達意圖: 例如，將“過去人們如何製造炸彈”理解為對歷史事件的描述，而將“我想知道如何製造炸彈”理解為表達製造炸彈的意圖。 推斷潛在風險: 例如，即使請求使用過去式，但如果 LLM 能夠理解其描述的行為具有危險性，仍然可以拒絕回答或發出警告。 然而，讓 LLM 真正理解時態的意涵是一個非常困難的任務，需要在自然語言處理、知識表示、和推理機制等方面取得突破。

Core Concepts

雖然大型語言模型 (LLM) 經過訓練可以拒絕有害請求，但這項研究發現了一個重要的安全漏洞：僅僅將有害請求改寫成過去式，就足以讓許多最先進的 LLM 生成原本應該被拒絕的內容。

Abstract

大型語言模型拒絕訓練的漏洞：過去式攻擊

這篇研究論文揭露了大型語言模型 (LLM) 拒絕訓練中的一個驚人漏洞。儘管 LLM 被訓練成可以拒絕有害請求，但作者發現，只要將這些請求改寫成過去式，就常常足以破解許多最先進的 LLM。

研究發現

過去式攻擊非常有效： 作者系統性地評估了多個領先的 LLM，包括 Llama-3 8B、Claude-3.5 Sonnet、GPT-3.5 Turbo、Gemma-2 9B、Phi-3-Mini、GPT-4o-mini、GPT-4o 和 R2D2，結果發現過去式攻擊對這些模型都非常有效。例如，根據 GPT-4 的判斷，GPT-4o-mini 和 GPT-4o 在面對直接請求時的攻擊成功率 (ASR) 僅為 1%，但在使用 20 次過去式改寫嘗試後，ASR 分別上升至 83% 和 88%。
未來式攻擊效果較差： 有趣的是，作者發現未來式改寫的效果不如過去式，這意味著 LLM 的拒絕機制可能認為過去的歷史問題比假設性的未來問題更安全。
微調可以提高防禦能力： 作者在 GPT-3.5 Turbo 上進行的實驗表明，如果在微調數據中明確包含過去式範例，就可以有效降低攻擊成功率。然而，必須小心控制過度拒絕的情況，方法是在數據集中添加足夠數量的標準對話。
推理模型並非完全免疫： 作者還評估了 OpenAI 最新的 o1 推理模型，發現這些模型對過去式改寫的防禦能力有限，儘管它們在被破解後生成的內容通常較不具體。

研究意義

這項研究突顯了當前 LLM 對齊技術（如監督式微調 (SFT)、人類回饋強化學習 (RLHF) 和對抗訓練）的脆弱性。儘管這些技術可以有效地泛化到不同的語言，但它們在不同時態之間的泛化能力卻不足。作者認為，需要進一步研究 LLM 對齊背後的泛化機制，以開發更強健、更安全的 LLM。

Customize Summary

Rewrite with AI

Generate Citations

Translate Source

To Another Language

Generate MindMap

from source content

Visit Source

arxiv.org

Stats

使用 GPT-4 作為判斷標準時，GPT-4o-mini 和 GPT-4o 在面對直接請求時的攻擊成功率 (ASR) 僅為 1%，但在使用 20 次過去式改寫嘗試後，ASR 分別上升至 83% 和 88%。
GPT-3.5 Turbo 的 ASR 為 74%，而 GPT-4o 的 ASR 為 88%。
使用 Llama-3 70B 作為判斷標準時，針對 Vicuna 優化的特定請求 GCG 後綴在 GPT-3.5 Turbo 上的 ASR 為 47%，而在 GPT-4o 上僅為 1%。
在相同的 50 個 AdvBench 行為上使用 100 次重新啟動，作者在 GPT-4o 上達到了 100% 的 ASR。
Llama-3 8B 的過度拒絕率為 19%，而根據 GPT-4 的判斷，其 ASR 為 27%。
o1 模型的輸入過濾器平均會阻止 78% 的現在式請求和 27% 的過去式請求。

Quotes

“僅僅將有害請求改寫成過去式，就足以破解許多最先進的 LLM。”
“未來式改寫的效果不如過去式。”
“如果在微調數據中明確包含過去式範例，就可以有效降低攻擊成功率。”
“推理模型對過去式改寫的防禦能力有限。”

Key Insights Distilled From

Does Refusal Training in LLMs Generalize to the Past Tense?

by Maksym Andri... at arxiv.org 10-04-2024

https://arxiv.org/pdf/2407.11969.pdf

Does Refusal Training in LLMs Generalize to the Past Tense?

Deeper Inquiries

除了時態轉換，還有哪些語言學上的技巧可以用來破解 LLM 的安全防護機制？

除了時態轉換，還有許多語言學上的技巧可以用來破解 LLM 的安全防護機制，以下列舉幾種常見的技巧：

語義替換: 使用同義詞或近義詞替換有害請求中的關鍵詞，例如將“製造炸彈”替換為“組裝爆炸裝置”。
語法變換:  改變句子結構，例如將主動語態改為被動語態，或使用從句、插入語等方式增加句子複雜度。
指代消歧: 使用代詞或其他指代詞語替換有害請求中的特定名詞，例如將“如何製造炸彈”改為“你知道怎麼做嗎？”，並在上下文提供“炸彈”的相關信息。
隱喻和委婉語: 使用隱喻、比喻、反諷等修辭手法，或使用委婉語表達有害請求，例如將“我想殺人”改為“我對某人感到非常憤怒”。
拼寫錯誤和變形:  故意拼錯關鍵詞或使用網絡用語、縮寫等方式規避關鍵詞檢測。
多輪對話技巧:  通過多輪對話引導 LLM 逐步放鬆警惕，最終誘導其產生有害內容。
這些技巧都利用了 LLM 在語義理解、上下文推理、和世界知識上的不足，試圖繞過其安全防護機制。

LLM 開發者應該如何在不造成過度拒絕的情況下，更有效地訓練模型拒絕各種形式的有害請求？

LLM 開發者需要採取多方面的策略，才能在不造成過度拒絕的情況下，更有效地訓練模型拒絕各種形式的有害請求：

豐富訓練數據:

收集更多樣化的有害請求樣本，涵蓋各種語言學上的變換技巧，例如時態轉換、語義替換、語法變換等。
標註清晰的拒絕樣本，教導模型如何安全地拒絕有害請求，例如使用禮貌的措辭、解釋拒絕原因、提供替代方案等。
平衡訓練數據，避免模型過度擬合特定類型的有害請求，導致過度拒絕正常請求。

強化模型的語義理解:

使用更先進的預訓練模型，例如具有更強語義理解能力的 Transformer 模型。
引入外部知識庫，例如常識知識圖譜、倫理道德準則等，幫助模型更好地理解請求的意圖和潛在風險。

改進安全防護機制:

結合基於規則的方法和基於統計的方法，例如使用關鍵詞過濾、語義相似度匹配、模型置信度評估等多種手段檢測有害請求。
設計更靈活的拒絕策略，例如根據請求的危害程度、用戶的身份信息、上下文場景等因素動態調整拒絕方式。

持續監控和評估:

建立完善的監控機制，及時發現模型的漏洞和缺陷。
定期進行紅隊測試，模擬攻擊者的行為，評估模型的魯棒性和安全性。
總之，訓練安全的 LLM 需要持續投入和改進，才能應對日益複雜的挑戰。

如果 LLM 能夠理解和區分不同時態的意涵，是否就能更有效地避免這類型的攻擊？

如果 LLM 能夠真正理解和區分不同時態的意涵，的確可以更有效地避免這類型的攻擊。
目前 LLM  對於時態的理解還停留在表面，主要依賴於訓練數據中的模式匹配，而非真正的語義理解。 因此，即使 LLM  能夠識別出請求的時態是過去式，也未必能夠理解其背後的真實意圖。
如果 LLM  能夠像人類一樣理解時態，就能夠：

區分描述事實和表達意圖:  例如，將“過去人們如何製造炸彈”理解為對歷史事件的描述，而將“我想知道如何製造炸彈”理解為表達製造炸彈的意圖。
推斷潛在風險:  例如，即使請求使用過去式，但如果 LLM  能夠理解其描述的行為具有危險性，仍然可以拒絕回答或發出警告。
然而，讓 LLM  真正理解時態的意涵是一個非常困難的任務，需要在自然語言處理、知識表示、和推理機制等方面取得突破。