Core Concepts
개인 정보 보호 요구사항과 참여 인센티브 부족으로 인해 협력적 기계 학습에서 고품질 데이터를 확보하기 어려운 문제를 해결하기 위해, 기울기 기반 지표를 활용하여 참여자들이 모델 학습에 유용한 데이터를 선별하고 평가할 수 있는 방법을 제안한다.
Abstract
이 연구는 개인 정보 보호와 인센티브 제공이라는 두 가지 주요 문제를 동시에 해결하기 위해 노력한다.
먼저, 분산 기계 학습 기술(예: 연합 학습)과 차등 프라이버시(DP) 모델 학습을 결합하여 규제 문제를 해결한다.
다음으로, 참여자들이 모델 학습에 유용한 데이터에 대한 접근을 제공하도록 장려하기 위해 기울기 기반 지표를 활용한다. 이를 통해 참여자들은 데이터의 가치를 객관적으로 평가하고 적절한 보상을 받을 수 있다.
구체적으로, 이 연구에서는 분산 DP 학습 환경에서 활용할 수 있는 두 가지 기울기 기반 지표, 즉 기울기 분산(VoG)과 프라이버시 손실-입력 민감도 점수(PLIS)를 제안한다. 이 지표들은 참여자들이 모델 학습에 유용한 데이터를 선별하는 데 도움을 줄 수 있다.
실험 결과, VoG 점수는 다양한 모델 아키텍처, 데이터셋 및 프라이버시 수준에서 일관되게 이상적인 샘플을 식별할 수 있음을 보여준다. 반면 PLIS 점수는 프라이버시 수준에 따라 선택된 샘플이 다르게 나타났다. 이는 VoG와 PLIS가 서로 다른 정보를 포착하고 있음을 시사한다.
또한 이 연구는 VoG와 PLIS 점수를 차등 프라이버시 방식으로 공개하는 방법을 제안한다. 이를 통해 참여자들은 자신의 데이터 가치를 안전하게 평가하고 적절한 보상을 받을 수 있다.
Stats
기울기 분산(VoG) 점수가 높은 이미지는 일반적으로 낮은 대비와 더 뚜렷한 특징을 가지고 있다.
프라이버시 손실-입력 민감도(PLIS) 점수가 낮은 이미지는 개인정보 보호 측면에서 덜 민감한 것으로 나타났다.
Quotes
"DP 노이즈는 과소 대표되고 비전형적인(그러나 종종 정보가 풍부한) 데이터 샘플에 악영향을 미칠 수 있어 그 유용성을 평가하기 어렵다."
"DP 훈련 자체가 편향된 모델을 초래하여 과소 대표되는 하위 그룹의 성능이 저하되므로 다양성 있는 기여를 감소시킬 수 있다."