本文提出了一種名為CrossFire的創新對抗性攻擊方法,用於攻擊多模態模型。與現有的直接將擾動的圖像/音頻文件與目標輸入在嵌入空間中對齊的攻擊方法不同,CrossFire首先將目標輸入轉換為與原始圖像/音頻文件相同模態的"轉換輸入"。然後,攻擊者通過優化問題來確定需要添加到原始媒體的微小擾動,使轉換輸入與經過擾動的圖像/音頻文件在嵌入空間中對齊。
在六個真實世界基準數據集上的實驗結果表明,CrossFire不僅能夠顯著操縱下游任務,而且明顯優於現有方法。此外,我們還評估了六種防禦策略來抵禦CrossFire,發現當前的防禦措施不足以抵禦我們提出的CrossFire攻擊。
最後,我們探討了CrossFire在數據增強操縱、在線廣告操縱和散佈成人內容等應用中的潛在危害,突出了緩解這種攻擊帶來的嚴重後果的迫切需求。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Zhihao Dou, ... om arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.06793.pdfDiepere vragen