Core Concepts
SynDiffix는 다중 테이블 합성 기법을 사용하여 기존 기법들에 비해 저차원 테이블에서 훨씬 더 정확한 합성 데이터를 생성할 수 있다. 그러나 고차원 테이블에서는 일부 기존 기법들보다 성능이 다소 떨어진다.
Abstract
이 논문은 SynDiffix라는 새로운 오픈소스 구조화된 데이터 합성 도구와 15개의 다른 상용 및 학술 합성 데이터 기법을 SDNIST 분석 프레임워크를 사용하여 비교한다.
SynDiffix는 다중 테이블 합성 기법을 사용하여 분석 목적에 필요한 열만 합성한다. 이를 통해 단일 테이블 접근법에 비해 더 정확한 데이터를 생성할 수 있다.
결과적으로 SynDiffix는 저차원 테이블에서 다른 기법들에 비해 훨씬 더 정확한 것으로 나타났다. 예를 들어 단일 열 측정에서는 10배, 2열 측정에서는 17배, 3열 측정에서는 2배 더 정확했다.
그러나 고차원 측정에서는 SynDiffix의 성능이 다소 떨어졌다. 4열 선형 회귀 측정에서는 최고 기법보다 30% 낮은 정확도를 보였고, 24열 PCA 측정에서는 최고 기법보다 3배 낮은 정확도를 보였다.
SDNIST의 간단한 프라이버시 지표에 따르면 SynDiffix는 매우 강력한 익명성을 가지고 있다. 대부분의 다른 기법들도 강력한 익명성을 가지고 있지만, SynDiffix는 생성 기반 접근법보다 더 강력하고 차등 프라이버시 기법보다 약간 약한 익명성을 가지고 있다.
Stats
단일 열 측정에서 SynDiffix의 중앙값 복합 오차는 다른 기법들에 비해 10배 더 정확했다.
2열 측정에서 SynDiffix의 중앙값 복합 오차는 다른 기법들에 비해 17배 더 정확했다.
3열 측정에서 SynDiffix의 중앙값 복합 오차는 다른 기법들에 비해 2배 더 정확했다.
4열 선형 회귀 측정에서 SynDiffix의 오차는 최고 기법보다 30% 높았다.
24열 PCA 측정에서 SynDiffix의 오차는 최고 기법보다 3배 높았다.
Quotes
"SynDiffix는 다중 테이블 합성 기법을 사용하여 분석 목적에 필요한 열만 합성함으로써 단일 테이블 접근법에 비해 더 정확한 데이터를 생성할 수 있다."
"SynDiffix는 저차원 테이블에서 다른 기법들에 비해 훨씬 더 정확한 것으로 나타났다."
"그러나 고차원 측정에서는 SynDiffix의 성능이 다소 떨어졌다."