Baixe o Linnk AI
•
Assistente de Pesquisa
>
Entrar
insight
-
大型語言模型越獄攻擊
當大型語言模型遇上深度強化學習:透過深度強化學習引導的搜尋提升越獄效率
本文提出了一種名為 RLbreaker 的新型黑盒攻擊方法,利用深度強化學習引導搜尋,自動生成越獄提示,有效地誘使對齊的大型語言模型回答有害問題,並展現出比現有攻擊方法更高的效率和可遷移性。
1