核心概念
本文提出了一種基於擴散模型的模型反演攻擊方法(Diff-MI),透過構建目標特定條件擴散模型,在維持攻擊準確性的同時,顯著提高了生成圖像的保真度,有效解決了以往基於 GAN 方法存在的生成保真度不足的問題。
本研究論文提出了一種名為「基於擴散的模型反演」(Diff-MI)的全新攻擊方法,旨在解決現有基於生成對抗網路(GAN)的模型反演攻擊(MIA)方法所面臨的生成圖像保真度不足的問題。
研究背景
模型反演攻擊(MIA)旨在從目標分類器的訓練集中重建私人圖像,從而引發了人們對人工智能應用中隱私問題的擔憂。現有的基於 GAN 的 MIA 方法由於 GAN 固有的缺陷以及潛在空間中存在偏差的優化問題,往往會導致生成的圖像保真度較差。
Diff-MI 方法
為了減輕這些問題,Diff-MI 利用了擴散模型卓越的合成能力。該方法採用兩步學習範式:
構建目標特定條件擴散模型(CDM): 首先,使用公共圖像及其由目標分類器生成的偽標籤對 CDM 進行預訓練。然後,透過目標分類器的採樣過程,使用目標分類器對預訓練的 CDM 的一小部分進行微調,以充分提取目標分類器的白盒知識(例如梯度),從而實現卓越的準確性-保真度平衡。
迭代圖像重建: 引入迭代圖像重建方法,透過結合擴散先驗和目標知識,進一步提高攻擊性能。將單目標優化問題(即最小化分類損失)轉變為組合優化問題,同時考慮學習到的 CDM 先驗和目標分類器約束。
主要貢獻
首次提出基於擴散模型的模型反演攻擊(Diff-MI),利用擴散模型卓越的合成能力解決了 MIA 問題,並實現了高保真度重建。
設計了一種目標特定 CDM,透過在預訓練中創建偽標籤作為條件,並在微調中使用圖像預測調整特定層,來逼近目標分類器的私有分佈。
比較了現有的分類損失,並為 MIA 引入了一種改進的最大邊緣損失,該損失用 top-k 最大值替換了硬最大值,並使用 p-reg 損失對特徵空間中的圖像進行正則化,從而充分利用了目標分類器提供的特徵信息和軟標籤。
進行了大量實驗,證明 Diff-MI 在各種數據集和模型上與最先進方法相比,在保持競爭性攻擊準確性的同時,顯著提高了生成保真度,平均 FID 降低了 20%。
優勢
Diff-MI 方法相較於現有的基於 GAN 的 MIA 方法具有以下優勢:
更高的生成保真度: 透過利用擴散模型的強大生成能力,Diff-MI 可以生成更逼真、更自然的圖像。
更準確的重建: Diff-MI 透過結合擴散先驗和目標知識,可以更準確地重建私人圖像。
更强的魯棒性: Diff-MI 對分佈偏移更具魯棒性,這意味著它可以在公共數據集和私人數據集之間存在顯著差異的情況下仍然有效。
總結
Diff-MI 是一種新穎且有效的 MIA 方法,它克服了現有基於 GAN 方法的局限性。實驗結果表明,Diff-MI 在生成保真度和重建質量方面均優於現有方法,同時保持了競爭性的攻擊準確性。
統計資料
Diff-MI 在 FID 指標上平均降低了 20%。
Diff-MI 在 KNN Dist 指標上平均減少了 20 個點。