Core Concepts
복잡한 조사 설계에 따른 설문 데이터를 활용하여 합성 데이터의 품질을 검증하는 차등 프라이버시 기반 방법론을 제안한다.
Abstract
이 연구는 복잡한 조사 설계에 따른 설문 데이터를 활용하여 합성 데이터의 품질을 검증하는 차등 프라이버시 기반 방법론을 제안한다.
주요 내용은 다음과 같다:
합성 데이터 사용자가 모집단 총계 또는 평균을 추정할 때, 실제 기밀 데이터와 합성 데이터 간 추정치의 유사성을 검증하는 방법을 제안한다.
차등 프라이버시를 만족하는 검증 척도를 개발하기 위해 하위 표본 및 집계 알고리즘을 활용한다. 이를 통해 기밀 데이터의 추가적인 노출 위험을 최소화한다.
시뮬레이션 실험을 통해 제안된 검증 척도의 성능을 평가한다. 합성 데이터가 모집단을 잘 대표하는 경우와 그렇지 않은 경우를 모두 고려한다.
시뮬레이션 결과, 제안된 검증 척도가 복잡한 조사 설계에 따른 기밀 데이터 추정치와 합성 데이터 추정치의 유사성을 효과적으로 평가할 수 있음을 보여준다.
Stats
모집단 크기 N = 10,000,000
표본 크기 n = 500, 20,000, 50,000
분할 수 M = 25, 50, 90