Conceitos essenciais
일반인들은 자신의 민감한 데이터를 차등 프라이버시 NLP 시스템에 제공할 때 어느 정도의 프라이버시 위험을 수용할 수 있는가?
Resumo
이 연구는 차등 프라이버시 기술을 사용하여 민감한 텍스트 데이터를 수집하고 분석하는 상황에서 일반인들의 위험 인식과 의사결정 행동을 체계적으로 조사했다.
설문조사를 통해 참가자들의 프라이버시 태도와 웹 사용 기술을 측정했다. 이는 참가자들의 프라이버시 위험 인식에 영향을 미칠 수 있는 요인들이다.
행동 실험에서는 참가자들에게 의료 기록과 메신저 대화 내용을 공유하는 두 가지 시나리오를 제시했다. 각 시나리오에서 데이터 주체 수와 프라이버시 예산 ε 값을 체계적으로 변화시켜 참가자들의 데이터 공유 의사결정을 측정했다.
분석 결과, 참가자들은 메신저 대화 데이터를 의료 기록보다 더 민감한 것으로 인식했다. 또한 데이터 주체 수가 적을수록 더 낮은 ε 값을 선호했다.
로지스틱 함수를 이용해 참가자들의 의사결정 행동을 모델링한 결과, 시나리오와 데이터 주체 수에 따라 다른 ε 임계값이 도출되었다. 이는 일반적인 최적의 ε 값이 존재하지 않음을 시사한다.
참가자들의 IUIPC 점수와 웹 사용 기술 점수는 ε 임계값과 유의미한 상관관계를 보이지 않았다.
Estatísticas
데이터 주체 수가 1,000명일 때 대부분의 참가자들은 ε ≤ 0.08에서 데이터를 공유하려 했다.
데이터 주체 수가 10,000명일 때 대부분의 참가자들은 ε ≤ 0.80에서 데이터를 공유하려 했다.
데이터 주체 수가 100,000명일 때 대부분의 참가자들은 ε ≤ 2.18에서 데이터를 공유하려 했다.
데이터 주체 수가 1,000,000명일 때 대부분의 참가자들은 ε ≤ 4.02에서 데이터를 공유하려 했다.
데이터 주체 수가 10,000,000명일 때 대부분의 참가자들은 ε ≤ 5.93에서 데이터를 공유하려 했다.
Citações
"일반적인 최적의 ε 값이 존재하지 않음을 시사한다."
"참가자들의 IUIPC 점수와 웹 사용 기술 점수는 ε 임계값과 유의미한 상관관계를 보이지 않았다."