Alapfogalmak
Verteilungsinferenz-Angriffe zielen darauf ab, statistische Eigenschaften der Trainingsdaten von Maschinenlernmodellen zu erschließen. Diese Angriffe können überraschend effektiv sein, aber die Faktoren, die das Risiko der Verteilungsinferenz beeinflussen, sind nicht gut verstanden. Wir entwickeln einen neuen Black-Box-Angriff, der in den meisten Fällen sogar den besten bekannten White-Box-Angriff übertrifft, und evaluieren die Wirksamkeit zuvor vorgeschlagener und neuer Verteidigungsmaßnahmen.
Kivonat
Die Studie untersucht Verteilungsinferenz-Angriffe, bei denen versucht wird, statistische Eigenschaften der Trainingsdaten von Maschinenlernmodellen zu erschließen. Die Autoren entwickeln einen neuen Black-Box-Angriff, den KL-Divergenz-Angriff, der in den meisten Fällen effektiver ist als der beste bekannte White-Box-Angriff.
Die Ergebnisse zeigen, dass das Risiko der Verteilungsinferenz stark von den Datensätzen abhängt. Während für den Texas-100X-Datensatz kaum Informationslecks festgestellt werden, gibt es für den Census19-Datensatz und den ogbn-arxiv-Graphdatensatz erhebliche Lecks.
Die Autoren untersuchen auch den Einfluss verschiedener Faktoren auf das Inferenzrisiko, wie unterschiedliche Modellarchitekturen, fehlende gemeinsame Merkmalsextraktoren und der Zugriff nur auf Vorhersagelabels statt auf Wahrscheinlichkeiten. Sie finden, dass Unterschiede in der Modellarchitektur das Risiko deutlich reduzieren können, während der Verzicht auf Wahrscheinlichkeiten die Angriffe nur geringfügig beeinträchtigt.
Schließlich evaluieren die Autoren verschiedene Verteidigungsansätze. Sie stellen fest, dass rauschartige Verteidigungen wie differentiell private Trainingsmethoden wenig Schutz bieten, entwickeln aber eine einfache und effektive Verteidigung basierend auf Datenneuverteilung.
Statisztikák
"Leakage variiert stark zwischen verschiedenen Datensätzen, wobei für die meisten Einstellungen die besten aktuellen Angriffe nicht mehr Informationen preisgeben als was ein oder zwei Stichproben aus der Verteilung offenbaren würden."
"Für den Census19-Datensatz beträgt die durchschnittliche Unterscheidungsgenauigkeit 82,5% (nleaked = 4,2), während sie für den Texas-100X-Datensatz nur 51,2% (nleaked < 0,1) beträgt."
"Für den ogbn-arxiv-Graphdatensatz erreicht der KL-Divergenz-Angriff eine durchschnittliche Unterscheidungsgenauigkeit von 92,6% (nleaked = 182,5)."
Idézetek
"Leakage variiert signifikant über verschiedene Datensätze, wobei für die meisten Einstellungen die besten aktuellen Angriffe nicht mehr Informationen preisgeben als was ein oder zwei Stichproben aus der Verteilung offenbaren würden."
"Überraschenderweise stellt sich heraus, dass in den meisten Einstellungen unser Black-Box-KL-Divergenz-Angriff effektiver ist als der beste bekannte White-Box-Angriff."