Core Concepts
이 연구는 K-means 클러스터링과 사전 결정 중심점(PDC) 클러스터링이라는 두 가지 다른 클러스터링 알고리즘을 기반으로 한 개인정보 보호 정책 요약 모델을 제시합니다. PDC 모델은 GDPR의 14가지 필수 주제에 따라 문서의 핵심 문장을 추출하여 요약합니다.
Abstract
이 연구는 개인정보 보호 정책 문서를 효율적으로 요약하기 위해 두 가지 클러스터링 기반 요약 모델을 제안합니다.
K-means 클러스터링 모델:
10개의 일반적인 클러스터링 알고리즘을 평가하여 K-means 클러스터링이 가장 효과적인 것으로 판단
문장 벡터를 차원 축소하기 위해 PCA 사용
각 클러스터의 중심 문장을 선택하여 요약문 생성
PDC 클러스터링 모델:
GDPR에서 제시한 14가지 필수 주제에 해당하는 대표 문장을 사전에 정의하여 중심점으로 사용
각 문장과 중심점 간 유클리드 거리를 계산하여 가장 가까운 중심점에 할당
거리가 가장 가까운 문장들을 선택하여 요약문 생성
두 모델의 성능을 SSD(Sum of Squared Distance)와 ROUGE 평가 지표로 비교한 결과, PDC 모델이 K-means 모델보다 각각 27%, 24% 더 우수한 것으로 나타났습니다. 이는 사전 정의된 중심점을 활용하는 PDC 모델이 GDPR 준수를 위한 필수 주제 추출에 더 효과적임을 보여줍니다.
Stats
개인정보 보호 정책 문서에는 약 1.88억 개가 존재할 것으로 추정됩니다.
개인정보 보호 정책 문서 읽기에 소요되는 총 경제적 가치는 미국 인구 기준으로 4,920억 달러에 달합니다.
Quotes
"개인정보 보호 정책 문서를 읽는 것은 대부분의 사용자에게 너무 부담스러운 일입니다."
"개인정보 보호 정책 문서의 내용을 이해하기 위해서는 약 20분의 시간이 필요합니다."