本文提出了一种名为PathSeeker的新型黑盒越狱攻击方法。该方法受"老鼠逃脱迷宫"游戏的启发,将大型语言模型的安全防御视为一个需要逃脱的"安全迷宫"。
作者设计了两个智能体:问题智能体和模板智能体,通过强化学习协调双方的行动,引导大型语言模型逐步放松安全约束,产生越来越丰富的有害输出。
具体来说,问题智能体和模板智能体分别负责修改输入问题和越狱模板,并根据目标模型的反馈信号获得奖励。奖励机制考虑了响应中词汇丰富度和危险性两个因素,鼓励目标模型逐步放松安全限制。
作者在13个开源和商业大型语言模型上进行了实验,结果表明PathSeeker在攻击成功率方面优于5种最新的黑盒攻击方法,尤其对于具有强安全约束的商业模型如GPT-4o-mini、Claude-3.5和GLM-4-air。
此外,作者还验证了该方法在迁移攻击场景下的有效性,成功将攻击转移到Llama3系列模型,包括一个拥有4.05万亿参数的超大模型。
总之,本文提出了一种新颖的基于强化学习的黑盒越狱攻击方法,能够有效探索大型语言模型的安全漏洞,为构建更加健壮的防御机制提供参考。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Zhihao Lin, ... о arxiv.org 09-24-2024
https://arxiv.org/pdf/2409.14177.pdfГлибші Запити