本文提出了一種基於排版的語義轉移攻擊(TSTA)方法,旨在提高多模態大型語言模型(MLLM)在黑盒情況下的對抗性可轉移性。
首先,作者分析了MLLM在視覺信息處理中更關注語義層面的特點,並發現現有的基於像素級的數據增強方法無法有效增加MLLM的語義多樣性。因此,作者提出了TSTA方法,通過在輸入圖像中引入排版文字,增加MLLM在視覺信息處理中的語義多樣性,從而提升對抗性攻擊的可轉移性。
在實驗中,作者在兩種應用場景(有害詞插入和重要信息保護)下,評估了TSTA方法的性能。結果表明,TSTA不僅能有效攻擊原始的代理模型,還能成功影響不同類型的受害模型,體現了較強的跨模型對抗性可轉移性。
此外,作者還提出了TSTA-Ens和TSTA-MultiP等擴展方法,進一步增強了TSTA的適用性和實用性。最後,實驗結果表明,TSTA方法對最新的MLLM模型也具有很好的攻擊效果。
總的來說,本文提出的TSTA方法為提高MLLM在黑盒情況下的安全性提供了一種有效的解決方案,並引發了人們對MLLM濫用的警示。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések