核心概念
通過在輸入圖像中引入排版文字,可以有效增加多模態大型語言模型在視覺信息處理中的語義多樣性,從而提升對抗性攻擊的可轉移性。
摘要
本文提出了一種基於排版的語義轉移攻擊(TSTA)方法,旨在提高多模態大型語言模型(MLLM)在黑盒情況下的對抗性可轉移性。
首先,作者分析了MLLM在視覺信息處理中更關注語義層面的特點,並發現現有的基於像素級的數據增強方法無法有效增加MLLM的語義多樣性。因此,作者提出了TSTA方法,通過在輸入圖像中引入排版文字,增加MLLM在視覺信息處理中的語義多樣性,從而提升對抗性攻擊的可轉移性。
在實驗中,作者在兩種應用場景(有害詞插入和重要信息保護)下,評估了TSTA方法的性能。結果表明,TSTA不僅能有效攻擊原始的代理模型,還能成功影響不同類型的受害模型,體現了較強的跨模型對抗性可轉移性。
此外,作者還提出了TSTA-Ens和TSTA-MultiP等擴展方法,進一步增強了TSTA的適用性和實用性。最後,實驗結果表明,TSTA方法對最新的MLLM模型也具有很好的攻擊效果。
總的來說,本文提出的TSTA方法為提高MLLM在黑盒情況下的安全性提供了一種有效的解決方案,並引發了人們對MLLM濫用的警示。
統計資料
在有害詞插入場景中,TSTA方法可以使受害模型的攻擊成功率從0%提高到64.12%。
在重要信息保護場景中,TSTA方法可以使受害模型的攻擊成功率從0%提高到18.60%。
與基於像素級的數據增強方法相比,TSTA方法可以使受害模型的語義相似度(CLIP Score)降低3.92分。
引述
"通過在輸入圖像中引入排版文字,可以有效增加多模態大型語言模型在視覺信息處理中的語義多樣性,從而提升對抗性攻擊的可轉移性。"
"TSTA方法不僅能有效攻擊原始的代理模型,還能成功影響不同類型的受害模型,體現了較強的跨模型對抗性可轉移性。"
"TSTA方法為提高MLLM在黑盒情況下的安全性提供了一種有效的解決方案,並引發了人們對MLLM濫用的警示。"