Ladda ner Linnk AI
•
Forskningsassistent
>
Logga in
insikt
-
大型語言模型越獄攻擊
當大型語言模型遇上深度強化學習:透過深度強化學習引導的搜尋提升越獄效率
本文提出了一種名為 RLbreaker 的新型黑盒攻擊方法,利用深度強化學習引導搜尋,自動生成越獄提示,有效地誘使對齊的大型語言模型回答有害問題,並展現出比現有攻擊方法更高的效率和可遷移性。
1