Core Concepts
機械学習モデルのアンラーニング(学習済みデータの削除)プロセスを悪用し、削除されたデータの機密情報を復元することができる。
Abstract
本論文は、機械学習モデルのアンラーニング(学習済みデータの削除)プロセスに潜む新たな脆弱性を明らかにしている。
具体的には以下の2つの攻撃手法を提案している:
特徴復元攻撃: 元のモデルと削除後のモデルの差異から、削除されたデータの特徴を復元する。
ラベル推定攻撃: 元のモデルと削除後のモデルの予測出力の差異から、削除されたデータのラベル情報を推定する。
これらの攻撃手法は、機械学習サービス(MLaaS)環境において、サーバ管理者やユーザによって実行可能である。
実験の結果、提案手法は、正確なアンラーニング手法(完全な再学習)でも、近似的なアンラーニング手法でも、削除されたデータの機密情報を効果的に復元できることが示された。
このように、機械学習モデルのアンラーニングプロセスには、個人情報の漏洩リスクが潜んでおり、慎重な設計が必要であることが明らかになった。
Stats
削除されたデータの特徴を復元する際の平均二乗誤差(MSE)は0.05~0.39の範囲にある。
削除されたデータの特徴を復元する際のピーク信号対雑音比(PSNR)は8.10~25.20dBの範囲にある。
削除されたデータの特徴を復元する際のLPIPS距離は0.07~0.70の範囲にある。