Centrala begrepp
Es wird ein effizienter Algorithmus entwickelt, der aus einem gegebenen Datensatz ein privates Maß erstellt. Dieses private Maß ermöglicht es, akkurate private synthetische Daten zu erzeugen, die für eine breite Palette statistischer Analysewerkzeuge geeignet sind.
Sammanfattning
Der Artikel behandelt die Konstruktion privater Maße und die Erzeugung privater synthetischer Daten.
Zunächst wird ein "superregularer" Zufallsweg konstruiert, dessen Schritte zwar genauso regelmäßig verteilt sind wie unabhängige Laplace-Zufallsvariablen, deren Teilsummen sich aber nur logarithmisch langsam vom Ursprung entfernen. Dieser Zufallsweg wird dann verwendet, um ein privates Maß auf einem allgemeinen kompakten metrischen Raum zu konstruieren.
Das private Maß hat die Eigenschaft, dass es ε-metrisch privat ist und dass die Wasserstein-1-Distanz zwischen dem privaten Maß und dem ursprünglichen Maß klein ist. Dies impliziert, dass alle Lipschitz-Statistiken des privaten Maßes nahe an denen des ursprünglichen Maßes liegen.
Durch Quantisierung und Aufteilung des privaten Maßes wird dann privates synthetisches Datenmaterial erzeugt, das ebenfalls ε-differentiell privat ist und für eine breite Palette von Maschinenlernaufgaben geeignet ist.
Abschließend werden Untergrenzresultate für private Maße und synthetische Daten auf allgemeinen metrischen Räumen hergeleitet.
Statistik
Der erwartete Fehler in der Wasserstein-1-Distanz zwischen dem privaten Maß und dem ursprünglichen Maß ist von der Ordnung O(log^3(n)/α), wobei n die Größe des Datensatzes und α das Datenschutzbudget ist.
Für metrische Räume mit Minkowski-Dimension d gilt, dass der erwartete Fehler in der Wasserstein-1-Distanz zwischen den empirischen Maßen des ursprünglichen und des synthetischen Datensatzes von der Ordnung O(n^(-1/d)) ist.
Citat
"Es wird ein effizienter Algorithmus entwickelt, der aus einem gegebenen Datensatz ein privates Maß erstellt. Dieses private Maß ermöglicht es, akkurate private synthetische Daten zu erzeugen, die für eine breite Palette statistischer Analysewerkzeuge geeignet sind."
"Für metrische Räume mit Minkowski-Dimension d gilt, dass der erwartete Fehler in der Wasserstein-1-Distanz zwischen den empirischen Maßen des ursprünglichen und des synthetischen Datensatzes von der Ordnung O(n^(-1/d)) ist."