본 연구는 웹 상의 1,005,380개 영어 웹사이트 프라이버시 정책으로 구성된 PrivaSeer 코퍼스를 소개한다. 이는 기존 공개된 프라이버시 정책 데이터셋보다 약 10배 큰 규모이다.
데이터셋 구축 과정은 다음과 같다. 먼저 Common Crawl 데이터에서 프라이버시 정책 URL을 추출하고, 웹 크롤링을 통해 문서를 수집했다. 언어 감지, 문서 분류, 중복 제거 등의 과정을 거쳐 최종 데이터셋을 구축했다.
데이터셋 분석 결과, 프라이버시 정책의 평균 길이는 1,871단어이며, 읽기 난이도는 미국 대학 2년 수준으로 나타났다. 토픽 모델링을 통해 프라이버시 정책의 주요 주제를 파악했는데, 개인정보 수집 및 활용, 제3자 공유, 데이터 보안 등이 주요 주제로 확인되었다. 또한 도메인 인기도(PageRank)가 높을수록 프라이버시 정책에서 다루는 주제의 수가 많은 것으로 나타났다.
마지막으로 PrivaSeer 코퍼스를 활용해 PrivBERT라는 프라이버시 도메인 언어 모델을 학습했으며, 데이터 실천 분류와 질문 답변 과제에서 최신 기술 수준을 달성했다. 이를 통해 PrivaSeer 코퍼스와 PrivBERT가 프라이버시 정책 이해와 자동화를 위한 유용한 자원이 될 것으로 기대된다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Mukund Srina... klokken arxiv.org 04-02-2024
https://arxiv.org/pdf/2004.11131.pdfDypere Spørsmål