Core Concepts
개인정보 보호를 위해 계층적 인구 데이터를 공개할 때 TopDown 알고리즘이 합성 데이터 생성 방식보다 쿼리 정확도가 크게 높다.
Abstract
이 연구는 계층적 인구 데이터를 공개할 때 사용되는 TopDown 알고리즘과 합성 데이터 생성 방식을 비교했다.
TopDown 알고리즘은 사전에 정의된 쿼리 집합에 대해 노이즈를 추가하여 통계를 공개한다. 반면 합성 데이터 생성 방식은 원본 데이터의 분포를 모델링하여 합성 데이터를 생성하고, 이를 통해 쿼리에 응답한다.
실험 결과, TopDown 알고리즘은 사전에 정의된 쿼리에 대해 합성 데이터 생성 방식보다 훨씬 높은 정확도를 보였다. 예를 들어 동일한 프라이버시 예산에서 TopDown은 합성 데이터 방식보다 최소 20배 낮은 오차를 보였다.
그러나 TopDown은 사전에 정의되지 않은 쿼리에 대해서는 응답할 수 없다는 단점이 있다. 따라서 데이터 제공자는 쿼리가 사전에 알려진 경우 TopDown 알고리즘을, 쿼리가 알려지지 않은 경우 합성 데이터 생성 방식을 선택하는 것이 좋다.
Stats
동일한 프라이버시 예산에서 TopDown 알고리즘은 합성 데이터 방식보다 최소 20배 낮은 오차를 보였다.
TopDown 알고리즘의 정확도는 ϵ=3에서 0.92로, 가장 좋은 합성 데이터 방식인 MST의 0.49보다 1.9배 높았다.
Quotes
"TopDown 알고리즘은 사전에 정의된 쿼리에 대해 합성 데이터 생성 방식보다 훨씬 높은 정확도를 보였다."
"합성 데이터 생성 방식은 사전에 정의되지 않은 쿼리에 대해 응답할 수 있지만, TopDown 알고리즘은 그렇지 않다."