本論文は、機械学習モデルのアンラーニング(学習済みデータの削除)プロセスに潜む新たな脆弱性を明らかにしている。
具体的には以下の2つの攻撃手法を提案している:
特徴復元攻撃: 元のモデルと削除後のモデルの差異から、削除されたデータの特徴を復元する。
ラベル推定攻撃: 元のモデルと削除後のモデルの予測出力の差異から、削除されたデータのラベル情報を推定する。
これらの攻撃手法は、機械学習サービス(MLaaS)環境において、サーバ管理者やユーザによって実行可能である。
実験の結果、提案手法は、正確なアンラーニング手法(完全な再学習)でも、近似的なアンラーニング手法でも、削除されたデータの機密情報を効果的に復元できることが示された。
このように、機械学習モデルのアンラーニングプロセスには、個人情報の漏洩リスクが潜んでおり、慎重な設計が必要であることが明らかになった。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Hongsheng Hu... um arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03233.pdfTiefere Fragen