Основные понятия
DeSparsify 是一種針對視覺 Transformer 中 Token 稀疏化機制的新型對抗性攻擊,它可以透過產生惡意樣本來耗盡系統資源,同時保持模型的原始分類結果,從而影響模型的可用性。
論文資訊
Yehezkel, O., Zolfi, A., Baras, A., Elovici, Y., & Shabtai, A. (2024). Desparsify: Adversarial attack against token sparsification mechanisms in vision transformers. Advances in Neural Information Processing Systems, 38.
研究目標
本研究旨在探討視覺 Transformer 中 Token 稀疏化機制是否存在安全漏洞,並提出 DeSparsify 攻擊,一種新型對抗性攻擊,透過產生惡意樣本,在不改變模型分類結果的情況下,迫使模型使用所有可用的 Token,從而影響模型的可用性。
方法
研究人員針對三種 Token 稀疏化機制(ATS、AdaViT 和 A-ViT)設計了 DeSparsify 攻擊,並考慮了白盒、灰盒和黑盒三種攻擊情境。攻擊者利用修改後的損失函數,產生能夠繞過稀疏化機制並觸發最差情況性能的對抗性樣本。
主要發現
DeSparsify 攻擊能有效地攻擊三種 Token 稀疏化機制,特別是 A-ViT,攻擊成功率接近 100%。
攻擊者可以使用單一圖像、類別通用和通用等不同變化的攻擊方式,其中單一圖像攻擊效果最佳。
雖然不同稀疏化機制之間的攻擊可遷移性有限,但透過集成訓練可以提高攻擊效果。
DeSparsify 攻擊會顯著增加模型的計算量、記憶體使用量、能源消耗和推理時間。
主要結論
本研究揭露了視覺 Transformer 中 Token 稀疏化機制存在安全漏洞,容易受到 DeSparsify 攻擊的影響。攻擊者可以利用此漏洞,在不改變模型分類結果的情況下,大幅降低模型的可用性。
研究意義
本研究對於提升視覺 Transformer 模型的安全性具有重要意義,特別是在資源受限的環境中。研究結果提醒人們關注模型可用性方面的安全問題,並呼籲開發更安全的 Token 稀疏化機制。
局限與未來研究方向
本研究的攻擊可遷移性有限,未來可以研究開發更通用的攻擊方法。
未來可以探討 DeSparsify 攻擊在其他領域(如自然語言處理)中的影響。
可以進一步研究針對 DeSparsify 攻擊的防禦措施,例如設定 Token 使用上限或使用更安全的稀疏化機制。
Статистика
使用 DeSparsify 攻擊 ATS 機制時,可以將 GFLOPS 值提高 74%,記憶體使用量提高 37%,能源消耗提高 72%。
針對 A-ViT 的攻擊成功率接近 100%,表示沒有任何 Token 被稀疏化。
AdaViT 在乾淨圖像上就沒有使用第 4、10 和 12 個區塊中的任何 Token,顯示這些區塊可能是多餘的。