本文提出了一種名為 Zer0-Jack 的新型零階梯度攻擊方法,該方法可以有效地越獄黑盒多模態大型語言模型,並透過實驗證明了其在各種模型上的有效性。
本文提出了一種名為 SI-GCG 的新型越獄攻擊方法,通過結合有害問題和目標模板來增強對大型語言模型的攻擊效果,並通過優化的後綴選擇和重新後綴攻擊機制提高了攻擊成功率和可遷移性。
本文提出了一種名為 RLbreaker 的新型黑盒攻擊方法,利用深度強化學習引導搜尋,自動生成越獄提示,有效地誘使對齊的大型語言模型回答有害問題,並展現出比現有攻擊方法更高的效率和可遷移性。