本研究では、機械学習サービス(MLaaS)におけるプライバシー漏洩攻撃の一種であるモデル抽出攻撃(MEA)に着目している。特に、MLaaSが逆因果説明(CF)を提供する場合に、CFを利用してターゲットモデルの代替モデルを効率的に抽出する手法を提案している。
まず、ナレッジ・ディスティレーション(KD)を利用したMEA手法を提案し、CFを活用してターゲットモデルの代替モデルを効率的に抽出する。次に、差分プライバシー(DP)をCF生成プロセスに組み込むことで、プライバシーを保護しつつ、MEAを軽減する手法を提案している。
実験の結果、提案手法のKD-based MEAはベースラインよりも高い合意率を達成できることが示された。また、DPを組み込んだCF生成手法は、CF品質を一定程度維持しつつ、MEAの性能を低下させることができることが確認された。これらの結果は、MLaaSにおけるプライバシー保護と説明品質の両立に向けた重要な知見を提供している。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Fatima Ezzed... kl. arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.03348.pdfDybere Forespørgsler