핵심 개념
차등 프라이버시 하에서 조건부 독립성 검정을 위한 두 가지 기법을 제안하고, 이에 대한 이론적 보장을 제공한다.
초록
이 논문은 민감한 데이터에 대한 조건부 독립성 검정 문제를 다룬다. 조건부 독립성 검정은 통계 데이터 분석, 인과 관계 추론 등 다양한 분야에서 중요한 역할을 하지만, 개인정보 보호 문제로 인해 어려움이 있다.
저자들은 차등 프라이버시 하에서 조건부 독립성 검정을 수행할 수 있는 두 가지 기법을 제안한다:
- 일반화된 공분산 측도(GCM) 기반 기법:
- GCM 통계량을 차등 프라이버시 하에서 계산하는 방법을 제안한다.
- 이 기법은 조건부 평균 추정이 충분히 정확하다는 가정 하에 이론적 보장을 제공한다.
- 실험 결과, 비공개 GCM 보다 더 안정적인 제1종 오류 제어 성능을 보인다.
- 또한 동일한 검정력을 달성하기 위해 필요한 데이터 크기가 O(1/ε2)만큼 증가한다.
- 조건부 무작위화 검정(CRT) 기반 기법:
- CRT 기법을 차등 프라이버시 하에서 구현하는 방법을 제안한다.
- CRT는 X|Z의 분포를 알고 있다는 가정 하에 정확한 제1종 오류 제어를 제공한다.
- 제안된 기법은 CRT의 중간 통계량을 차등 프라이버시 하에서 추정하는 방법을 사용한다.
- 실험 결과, 비공개 CRT와 유사한 성능을 보인다.
이 논문은 민감한 데이터에 대한 조건부 독립성 검정 문제에 대한 최초의 연구로, 이론적 보장과 실험적 검증을 제공한다.
통계
조건부 평균 추정 오차 Af = O(n^-1)
조건부 분산 추정 오차 Bf = Bg = o(1)
인용구
"Given the aforementioned impossibility results for non-private CI testing, to obtain a CI test with meaningful theoretical guarantees, some assumptions are necessary; in particular we must restrict the space of possible null distributions."
"While our asymptotics justify the threshold for rejecting the null, our private GCM test controls type-I error very well at small finite n, as we demonstrate empirically (because the central limit theorem kicks in rather quickly)."
"A beneficial consequence of the privacy noise is that there are scenarios, under the null hypothesis, where the non-private GCM fails to provide type-I error control, but our private GCM does."