Der PrivaSeer-Korpus ist eine Sammlung von 1.005.380 Datenschutzrichtlinien von 995.475 verschiedenen Websites. Die Richtlinien haben im Durchschnitt eine Länge von 1.871 Wörtern und reichen von 143 bis 16.980 Wörtern. Der Korpus enthält Richtlinien aus über 800 verschiedenen Top-Level-Domains, wobei .com, .org und .net den Großteil ausmachen.
Die Lesbarkeitsanalyse zeigt, dass im Durchschnitt etwa 14,87 Jahre oder etwa zwei Jahre US-amerikanische Hochschulbildung erforderlich sind, um eine Datenschutzrichtlinie zu verstehen. Dies ist konsistent mit früheren Forschungsergebnissen, die besagen, dass Datenschutzrichtlinien für den Durchschnittsnutzer schwer verständlich sind.
Die unüberwachte Themenmodellierung des Korpus ergab neun Hauptthemen, die den von Experten erstellten Kategorien des OPP-115-Korpus ähneln, aber auch Unterschiede aufweisen. Die Themen umfassen Informationen zu Datenerhebung und -nutzung durch Erst- und Drittanbieter, Datensicherheit, Kontaktinformationen zum Datenschutz und Änderungen der Richtlinien. Es zeigte sich, dass Richtlinien von populäreren Domains (gemessen an PageRank) tendenziell mehr Themen abdecken.
Darüber hinaus wurde PrivBERT, ein auf dem PrivaSeer-Korpus vortrainiertes Transformermodell, entwickelt. PrivBERT erzielt state-of-the-art-Ergebnisse bei der Klassifizierung von Datenschutzpraktiken und der Beantwortung datenschutzbezogener Fragen, was seine Nützlichkeit für verschiedene Anwendungen im Datenschutzbereich zeigt.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Mukund Srina... a las arxiv.org 04-02-2024
https://arxiv.org/pdf/2004.11131.pdfConsultas más profundas