本研究提出了TrojVLM,這是第一個針對視覺語言模型(VLM)進行後門攻擊的方法。VLM是將視覺理解與大型語言模型的文本生成能力結合的重要模型,在圖像描述和視覺問答等任務上表現出色。然而,VLM也引入了新的安全漏洞,容易受到後門攻擊。
TrojVLM的目標是在不影響原有語義內容的情況下,在VLM的輸出文本中插入預定義的目標文本。為了實現這一目標,TrojVLM引入了一種新的語義保留損失函數,確保在後門訓練過程中保持語義完整性。
實驗結果表明,TrojVLM不僅能夠實現高攻擊成功率,而且還能夠保持輸出文本的質量。此外,本研究還探討了視覺特徵與文本信息在後門攻擊中的交互機制,為進一步研究多模態模型的安全性提供了重要洞見。
總的來說,本研究不僅揭示了VLM面臨的關鍵安全隱患,而且為未來研究多模態模型的安全防護奠定了基礎。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы