Основные понятия
プライベート環境とパブリック環境を活用し、情報感度の高い特徴量をプライベート環境で学習し、情報感度の低い特徴量をパブリック環境で学習することで、プライバシーを保護しつつ高性能な機械学習モデルを実現する。
Аннотация
本論文では、プライベート環境とパブリック環境を活用した新しい機械学習フレームワーク「Delta」を提案している。Deltaは、中間表現(IR)を情報感度の高い部分(IRmain)と情報感度の低い部分(IRres)に非対称的に分解する。IRmainはプライベート環境で小規模なモデル(Mmain)で学習し、IRresはパブリック環境で大規模なモデル(Mres)で学習する。これにより、プライバシーを保護しつつ高性能な機械学習モデルを実現できる。
具体的には以下の手順で動作する:
- 入力データをバックボーンモデル(Mbb)に通し、IRを抽出する。
- IRをSVDとDCTを用いて、情報感度の高い部分(IRmain)と低い部分(IRres)に分解する。
- IRmainをプライベート環境のMmainに入力し、IRresをパブリック環境のMresに入力する。
- Mmainの出力とMresの出力を加算し、最終的な予測結果を得る。
- 学習時は、Mmainの勾配計算にMresの出力を使用せず、プライバシーを保護する。
- IRresには差分プライバシーに基づくノイズを加え、さらにバイナリ量子化を行うことで、パブリック環境への情報漏洩を抑制する。
この非対称的な学習フレームワークにより、Deltaは強力なプライバシー保護と高い機械学習性能を両立できる。実験結果では、同等のプライバシー予算の下で、Deltaの精度がナイーブなDP手法に比べて最大31%向上することを示している。また、実行時間も大幅に短縮できることを確認している。
Статистика
中間表現(IR)の主成分の数を全チャンネル数の8%に抑えても、95%以上の情報を保持できる。
中間表現(IR)の低周波成分の数を全成分の32%に抑えても、90%以上の情報を保持できる。
Цитаты
"データプライバシーは、クラウドマシンラーニングサービスプラットフォームにおいて大きな懸念事項である。"
"Delta は、非対称的なデータフローを特徴とする新しいプライベート学習および推論フレームワークである。"
"Delta は、差分プライバシーを保証し、プライベート環境の複雑性を大幅に削減する。"