核心概念
本研究提出了TrojVLM,這是第一個針對視覺語言模型(VLM)進行後門攻擊的方法。TrojVLM能夠在不影響原有語義內容的情況下,在VLM的輸出文本中插入預定義的目標文本。
要約
本研究提出了TrojVLM,這是第一個針對視覺語言模型(VLM)進行後門攻擊的方法。VLM是將視覺理解與大型語言模型的文本生成能力結合的重要模型,在圖像描述和視覺問答等任務上表現出色。然而,VLM也引入了新的安全漏洞,容易受到後門攻擊。
TrojVLM的目標是在不影響原有語義內容的情況下,在VLM的輸出文本中插入預定義的目標文本。為了實現這一目標,TrojVLM引入了一種新的語義保留損失函數,確保在後門訓練過程中保持語義完整性。
實驗結果表明,TrojVLM不僅能夠實現高攻擊成功率,而且還能夠保持輸出文本的質量。此外,本研究還探討了視覺特徵與文本信息在後門攻擊中的交互機制,為進一步研究多模態模型的安全性提供了重要洞見。
總的來說,本研究不僅揭示了VLM面臨的關鍵安全隱患,而且為未來研究多模態模型的安全防護奠定了基礎。
統計
在圖像描述任務中,即使在受到攻擊的情況下,生成的文本質量指標(如BLEU@4、METEOR、ROUGE-L、CIDEr)仍然與乾淨模型相當。
在視覺問答任務中,即使在受到攻擊的情況下,模型的答案準確率(VQA score)仍然保持較高水平。
在不同的圖像觸發器類型(如顏色、噪聲模式)下,TrojVLM都能保持高攻擊成功率。
即使只使用包含圖像觸發器的1%圖像tokens,TrojVLM仍能保持高攻擊成功率,表明目標文本與圖像觸發器緊密相關。
引用
"本研究提出了TrojVLM,這是第一個針對視覺語言模型(VLM)進行後門攻擊的方法。"
"TrojVLM能夠在不影響原有語義內容的情況下,在VLM的輸出文本中插入預定義的目標文本。"
"實驗結果表明,TrojVLM不僅能夠實現高攻擊成功率,而且還能夠保持輸出文本的質量。"