核心概念
提出了一種名為CrossFire的創新對抗性攻擊方法,能有效欺騙多模態模型的下游任務。CrossFire通過將目標輸入轉換為與原始圖像/音頻文件相同模態的"轉換輸入",並將其與經過精心設計的微小擾動的圖像/音頻文件在嵌入空間中對齊,從而成功誤導下游任務產生期望的輸出。
摘要
本文提出了一種名為CrossFire的創新對抗性攻擊方法,用於攻擊多模態模型。與現有的直接將擾動的圖像/音頻文件與目標輸入在嵌入空間中對齊的攻擊方法不同,CrossFire首先將目標輸入轉換為與原始圖像/音頻文件相同模態的"轉換輸入"。然後,攻擊者通過優化問題來確定需要添加到原始媒體的微小擾動,使轉換輸入與經過擾動的圖像/音頻文件在嵌入空間中對齊。
在六個真實世界基準數據集上的實驗結果表明,CrossFire不僅能夠顯著操縱下游任務,而且明顯優於現有方法。此外,我們還評估了六種防禦策略來抵禦CrossFire,發現當前的防禦措施不足以抵禦我們提出的CrossFire攻擊。
最後,我們探討了CrossFire在數據增強操縱、在線廣告操縱和散佈成人內容等應用中的潛在危害,突出了緩解這種攻擊帶來的嚴重後果的迫切需求。
统计
在ImageNet數據集上,當擾動水平為16/255時,CrossFire的圖像攻擊成功率(ASRimg)達到0.98,文本攻擊成功率(ASRtext)達到0.87。
在AudioCaps數據集上,當擾動水平為0.05時,CrossFire的圖像攻擊成功率(ASRimg)達到0.94,文本攻擊成功率(ASRtext)達到0.86。
在黑盒攻擊情況下,當擾動水平為16/255時,CrossFire在ImageNet數據集上的圖像攻擊成功率(ASRimg)達到0.92,文本攻擊成功率(ASRtext)達到0.81。
引用
"CrossFire不僅能夠顯著操縱下游任務,而且明顯優於現有方法。"
"當前的防禦措施不足以抵禦我們提出的CrossFire攻擊。"
"CrossFire在數據增強操縱、在線廣告操縱和散佈成人內容等應用中的潛在危害,突出了緩解這種攻擊帶來的嚴重後果的迫切需求。"