核心概念
本論文提出了一種名為 BDetCLIP 的新型測試階段後門檢測方法,用於檢測基於多模態對比學習的 CLIP 模型中的後門攻擊。該方法利用對比提示生成良性和惡意的類別描述文本,並根據圖像與這些文本之間的餘弦相似度分佈差異來區分後門樣本和乾淨樣本。
摘要
BDetCLIP: 基於多模態提示對比學習的測試階段後門檢測方法
本研究旨在解決多模態對比學習模型(如 CLIP)在測試階段面臨的後門攻擊威脅。研究目標是開發一種高效且有效的後門樣本檢測方法,能夠在模型推理階段識別並拒絕惡意樣本。
本研究提出了一種名為 BDetCLIP 的新型測試階段後門檢測方法,該方法基於多模態提示對比學習的原理。具體步驟如下:
對比提示生成: 利用大型語言模型 (如 GPT-4) 生成兩種類型的文本提示:
良性提示: 根據目標類別的語義信息,生成多個與該類別相關的細粒度描述文本。
惡意提示: 生成與目標類別無關的隨機文本,並將其與類別模板提示拼接,形成擾亂語義的惡意提示。
計算餘弦相似度: 計算測試圖像與良性提示和惡意提示的文本嵌入向量之間的餘弦相似度。
對比分佈差異: 比較測試圖像在良性和惡意提示下的餘弦相似度分佈差異。由於後門圖像的視覺表示對文本語義變化不敏感,因此其分佈差異較小。
後門樣本檢測: 根據預設閾值,將分佈差異較小的圖像判定為後門樣本。