核心概念
データ拡張とマシン・アンラーニングを統合的に活用することで、機械学習モデルの公平性と堅牢性を同時に実現できる。
摘要
本論文は、データ拡張とマシン・アンラーニングを組み合わせることで、機械学習モデルの公平性と堅牢性を同時に実現する手法を提案している。
具体的には以下の2つのタスクを交互に行う:
-
データ拡張:
- 拡張データの生成にはガイド付きのディフュージョンモデルを使用
- 属性の分布の偏りを定量的に評価し、それを最小化するようにデータを生成
-
マシン・アンラーニング:
- マシン・アンラーニングにより、元のデータポイントを部分的に忘却
- 分散処理を活用することで、アンラーニングの計算コストを削減
- 一度に削除できるデータ量には上限があるため、データ拡張と交互に行うことで、上限を超えずに元のデータを完全に忘却
実験評価の結果、提案手法は CIFAR-10 および CelebA データセットにおいて、偏りの大幅な低減と、最新の会員推定攻撃に対する堅牢性の向上を示した。
統計資料
元のCIFAR-10データセットでは、動物と乗り物のクラスに大きな偏りがあった(動物:2959、乗り物:2041)。
提案手法を適用することで、クラスの偏りを大幅に改善できた。
引述
"データ拡張は機械学習モデルをプライバシー攻撃に晒すことが知られている。"
"マシン・アンラーニングは、残りのデータセットが偏っている場合、モデルの偏りを増大させる可能性がある。"