本文提出了一種名為VLOOD的新型後門攻擊方法,用於攻擊視覺語言模型(VLM)。VLOOD包含三個關鍵組件:
清潔知識保留(CKP):通過知識蒸餾,確保模型在使用出-分佈資料進行訓練時仍能保持正常行為,最小化表示的轉移。
概念一致性保留(CCP):使用曼哈頓距離約束預測的token嵌入,以保持受污染樣本的語義一致性。
動態調整權重:在訓練過程中動態調整乾淨和受污染樣本的影響,平衡兩者對參數更新的貢獻。
作者在圖像字幕和視覺問答任務上評估了VLOOD的性能,結果表明VLOOD即使在使用出-分佈資料的情況下,也能有效地注入後門,同時最大限度地保持概念一致性。與基線方法相比,VLOOD在保持高攻擊成功率的同時,在乾淨輸入和受污染輸入下的文本質量都有顯著提升。此外,VLOOD對現有的防禦方法也表現出很強的抗性。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Weimin Lyu, ... a las arxiv.org 10-03-2024
https://arxiv.org/pdf/2410.01264.pdfConsultas más profundas