Core Concepts
Dieser Artikel präsentiert theoretische Garantien für die Entanonymisierung von Datenbanken unter Synchronisationsfehlern und Obfuskation ohne Vorkenntnisse über die Datenverteilungen. Durch den Einsatz modifizierter Algorithmen zur Erkennung von Replikaten und Löschungen sowie eines neuartigen verteilungsagnostischen Entanonymisierungsverfahrens können die Bedingungen für eine erfolgreiche Zuordnung der Datensätze charakterisiert werden, ohne dass Annahmen über die zugrundeliegenden Verteilungen getroffen werden müssen.
Abstract
Der Artikel befasst sich mit dem Problem der Entanonymisierung von Datenbanken unter Berücksichtigung von Synchronisationsfehlern und Obfuskation. Im Gegensatz zu bisherigen Arbeiten, die entweder praktische Aspekte ohne Verteilungskenntnisse oder theoretische Aspekte mit bekannten Verteilungen behandelten, verfolgt dieser Beitrag einen verteilungsagnostischen Ansatz.
Zunächst wird ein modifizierter Algorithmus zur Erkennung von verrauschten Replikaten vorgestellt, der ohne Vorkenntnisse über die Datenverteilungen auskommt. Anschließend wird ein neuartiger samenbasierter Algorithmus zur Erkennung von Löschungen entwickelt, der bei einer doppeltlogarithmischen Samengröße im Verhältnis zur Zeilengröße die zugrundeliegenden Löschungen zuverlässig erkennen kann.
Basierend auf diesen Erkenntnissen wird ein verteilungsagnostisches Entanonymisierungsverfahren präsentiert, das die geschätzten Verteilungen und das erkannte Replikationsmuster nutzt, um eine obere Schranke für die erforderliche Datenbankwachstumsrate zur erfolgreichen Zuordnung der Datensätze herzuleiten. Es wird gezeigt, dass diese Schranke identisch mit der ist, die im verteilungsbekannten Fall gilt, und somit keine asymptotische Leistungseinbuße durch unbekannte Verteilungen auftritt.
Abschließend werden die Leistungen der vorgeschlagenen Algorithmen in Simulationen für endliche Datenbanken evaluiert, um ihre Effektivität auch in praktischen, nicht-asymptotischen Szenarien zu bestätigen.
Stats
Die Wahrscheinlichkeit eines Löschfehlers nimmt exponentiell mit der Samengröße Λn ab.
Die Wahrscheinlichkeit eines Replikationsfehlers nimmt exponentiell mit der Zeilengröße mn ab.
Quotes
"Dieser Artikel präsentiert theoretische Garantien für die Entanonymisierung von Datenbanken unter Synchronisationsfehlern und Obfuskation ohne Vorkenntnisse über die Datenverteilungen."
"Es wird gezeigt, dass diese Schranke identisch mit der ist, die im verteilungsbekannten Fall gilt, und somit keine asymptotische Leistungseinbuße durch unbekannte Verteilungen auftritt."