Core Concepts
Behörden können Nutzern Rückmeldungen zur Qualität ihrer Analysen von synthetischen Daten geben, indem sie einen differentiell geschützten Überprüfungsserver bereitstellen. Dies ermöglicht es den Nutzern, die Ähnlichkeit zwischen Schätzungen aus den vertraulichen und den synthetischen Daten zu beurteilen, ohne dass vertrauliche Informationen preisgegeben werden.
Abstract
In diesem Artikel wird ein Verfahren zur differentiell geschützten Überprüfung von umfragegewichteten Schätzungen vorgestellt. Das Verfahren nutzt den "Sub-Sample and Aggregate"-Algorithmus aus der Differentiellen Datenschutz-Literatur, um eine Überprüfungskennzahl zu berechnen, die ϵ-Differentiellen Datenschutz erfüllt.
Das Verfahren teilt die vertraulichen Daten in disjunkte Teilmengen auf, berechnet in jeder Teilmenge eine umfragegewichtete Schätzung und bestimmt den Anteil dieser Schätzungen, die innerhalb eines vorgegebenen Toleranzintervalls um die Schätzung aus den synthetischen Daten liegen. Dieser Anteil wird dann mit Hilfe des Laplace-Mechanismus verrauscht, um Differentiellen Datenschutz zu erreichen.
Die Simulationsstudien zeigen, dass das Verfahren nützliche Rückmeldungen zur Qualität von Schätzungen aus synthetischen Daten geben kann, wenn die zugrunde liegenden vertraulichen Daten aus komplexen Stichprobendesigns stammen. Insbesondere die Verwendung von angepassten Toleranzintervallen, die die verringerte Stichprobengröße in den Teilmengen berücksichtigen, führt zu verlässlichen Überprüfungsergebnissen.
Stats
Die Gesamtpopulation umfasst N = 10.000.000 Individuen.
Die Stichprobengröße beträgt n = 500, 20.000 oder 50.000.
Die Anzahl der Partitionen beträgt M = 25, 50 oder 90.
Quotes
Keine relevanten Zitate identifiziert.