核心概念
本研究發現,多種開源聊天語言模型的拒絕有害指令的行為,都與模型內部單一方向的激活子空間有關,並以此提出了一種新的白盒攻擊方法,可以有效繞過模型的安全防護機制。
本研究分析了 13 個熱門開源聊天語言模型(大小從 18 億到 720 億個參數不等)的內部表徵,發現這些模型拒絕有害指令的行為都與一個單一方向的激活子空間有關。具體來說,對於每個模型,研究人員都找到了一個單一方向,從模型的殘差流激活中移除這個方向後,模型就會執行有害指令,而添加這個方向則會讓模型拒絕執行即使是無害的指令。基於這一發現,研究人員提出了一種新的白盒攻擊方法,可以通過修改模型權重來精準地禁用模型的拒絕機制,同時對模型的其他能力影響極小。最後,研究人員還分析了對抗性後綴是如何抑制拒絕方向在標記位置之間傳播的。
探討大型語言模型拒絕執行有害指令行為背後的機制。
尋找一種可以有效繞過模型安全防護機制的白盒攻擊方法。