Der Artikel untersucht die Risiken für den Datenschutz, die von generativen adversariellen Netzwerken (GANs) für die Erstellung synthetischer Tabellendatensätze ausgehen können. Zu diesem Zweck analysieren die Autoren die Auswirkungen von Wiedererkennungsangriffen auf synthetische Daten, d.h. Angriffe, die darauf abzielen, Samples auszuwählen, die voraussichtlich memorisierten Trainingsstichproben entsprechen, basierend auf ihrer Nähe zu den nächstgelegenen synthetischen Datensätzen.
Die Autoren betrachten mehrere Szenarien, in denen Angreifer unterschiedliche Zugriffsstufen oder Kenntnisse des generativen Modells und prädiktiven Modells haben. Sie untersuchen auch, wie effektiv der Einsatz von evolutionärer multikriterieller Optimierung bei der Rekonstruktion genauerer Angriffe ist.
Die Ergebnisse zeigen, dass Angreifer erhebliche Datenschutzrisiken bergen, indem sie synthetische Samples auswählen, die wahrscheinlich memorisierte Trainingsstichproben darstellen. Darüber hinaus stellen die Autoren fest, dass die Datenschutzbedrohungen erheblich zunehmen, wenn der Angreifer entweder Kenntnisse oder Schwarzbox-Zugriff auf die generativen Modelle hat. Sie finden auch, dass Rekonstruktionsangriffe durch mehrkriterielles Optimieren das Risiko der Identifizierung vertraulicher Samples sogar erhöhen.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Abdallah Als... klokken arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00696.pdfDypere Spørsmål