核心概念
提出一種名為VLOOD的新型後門攻擊方法,能夠在使用出-分佈資料的情況下,有效地攻擊視覺語言模型,同時最小化對原有語義的損害。
要約
本文提出了一種名為VLOOD的新型後門攻擊方法,用於攻擊視覺語言模型(VLM)。VLOOD包含三個關鍵組件:
-
清潔知識保留(CKP):通過知識蒸餾,確保模型在使用出-分佈資料進行訓練時仍能保持正常行為,最小化表示的轉移。
-
概念一致性保留(CCP):使用曼哈頓距離約束預測的token嵌入,以保持受污染樣本的語義一致性。
-
動態調整權重:在訓練過程中動態調整乾淨和受污染樣本的影響,平衡兩者對參數更新的貢獻。
作者在圖像字幕和視覺問答任務上評估了VLOOD的性能,結果表明VLOOD即使在使用出-分佈資料的情況下,也能有效地注入後門,同時最大限度地保持概念一致性。與基線方法相比,VLOOD在保持高攻擊成功率的同時,在乾淨輸入和受污染輸入下的文本質量都有顯著提升。此外,VLOOD對現有的防禦方法也表現出很強的抗性。
統計
在Flickr8k數據集上,VLOOD在乾淨輸入下的BLEU@4為36.9,METEOR為30.6,ROUGE-L為60.5,CIDEr為115.0,在受污染輸入下的BLEU@4為36.1,METEOR為29.1,ROUGE-L為59.3,CIDEr為110.7,攻擊成功率為0.999。
在OK-VQA數據集上,VLOOD在乾淨輸入下的VQA得分為39.4,在受污染輸入下的VQA得分為43.1,攻擊成功率為0.977。
在VQAv2數據集上,VLOOD在乾淨輸入下的VQA得分為60.9,在受污染輸入下的VQA得分為56.6,攻擊成功率為0.983。
引用
"提出一種名為VLOOD的新型後門攻擊方法,能夠在使用出-分佈資料的情況下,有效地攻擊視覺語言模型,同時最小化對原有語義的損害。"
"VLOOD包含三個關鍵組件:清潔知識保留(CKP)、概念一致性保留(CCP)和動態調整權重。"
"VLOOD在保持高攻擊成功率的同時,在乾淨輸入和受污染輸入下的文本質量都有顯著提升。"