核心概念
提出了一種新的被動式攻擊框架SDAR,能夠有效地從分割式學習中推斷出客戶的私有特徵和標籤,即使在現有攻擊難以奏效的情況下也能保持優秀的攻擊性能。
摘要
本文提出了一種新的被動式攻擊框架SDAR,用於對分割式學習中的私有數據進行推斷。
在傳統的分割式學習中,客戶將其部分模型f共享給伺服器,伺服器則負責完成剩餘部分g的訓練。儘管這種方式提高了通信和計算效率,但仍存在隱私洩露的風險,即伺服器可能從共享的中間表示中推斷出客戶的私有數據。
為了解決這一問題,本文提出了SDAR攻擊框架。SDAR讓伺服器訓練一個模擬器,以模擬客戶模型f的行為,並同時訓練一個解碼器來解碼模擬器的輸出。為了防止模擬器和解碼器過度擬合於伺服器的輔助數據,SDAR引入了對抗性正則化,鼓勵它們學習更通用的表示,從而能夠有效地推斷客戶的私有數據。
在標準的分割式學習設置中,SDAR能夠從共享的中間表示中有效地重建客戶的私有特徵。在更複雜的U型分割式學習中,SDAR還能夠同時推斷出客戶的私有特徵和標籤。
實驗結果表明,在現有攻擊難以奏效的情況下,SDAR仍能保持優秀的攻擊性能,甚至可以與主動攻擊媲美。這是首次被動攻擊被證明可以與主動攻擊相媲美。此外,SDAR在伺服器擁有有限輔助數據或不知道客戶模型架構的情況下仍然有效。
統計資料
在CIFAR-10數據集上,使用ResNet-20模型在分割層級7時,SDAR的私有特徵重建均方誤差小於0.025。
在CIFAR-10數據集上,使用ResNet-20模型在U型分割式學習中,SDAR的標籤推斷準確率超過98%。