Die Studie untersucht Verteilungsinferenz-Angriffe, bei denen versucht wird, statistische Eigenschaften der Trainingsdaten von Maschinenlernmodellen zu erschließen. Die Autoren entwickeln einen neuen Black-Box-Angriff, den KL-Divergenz-Angriff, der in den meisten Fällen effektiver ist als der beste bekannte White-Box-Angriff.
Die Ergebnisse zeigen, dass das Risiko der Verteilungsinferenz stark von den Datensätzen abhängt. Während für den Texas-100X-Datensatz kaum Informationslecks festgestellt werden, gibt es für den Census19-Datensatz und den ogbn-arxiv-Graphdatensatz erhebliche Lecks.
Die Autoren untersuchen auch den Einfluss verschiedener Faktoren auf das Inferenzrisiko, wie unterschiedliche Modellarchitekturen, fehlende gemeinsame Merkmalsextraktoren und der Zugriff nur auf Vorhersagelabels statt auf Wahrscheinlichkeiten. Sie finden, dass Unterschiede in der Modellarchitektur das Risiko deutlich reduzieren können, während der Verzicht auf Wahrscheinlichkeiten die Angriffe nur geringfügig beeinträchtigt.
Schließlich evaluieren die Autoren verschiedene Verteidigungsansätze. Sie stellen fest, dass rauschartige Verteidigungen wie differentiell private Trainingsmethoden wenig Schutz bieten, entwickeln aber eine einfache und effektive Verteidigung basierend auf Datenneuverteilung.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Anshuman Sur... في arxiv.org 04-09-2024
https://arxiv.org/pdf/2212.07591.pdfاستفسارات أعمق