核心概念
차등 프라이버시 보장 하에 공개 데이터로 학습된 확산 모델을 개인 데이터 도메인에 적응시키는 방법을 제안한다.
摘要
이 논문은 개인 데이터를 활용하여 이미지를 생성하는 차등 프라이버시 기반 검색 증강 확산 모델(DP-RDM)을 제안한다.
주요 내용은 다음과 같다:
- 검색 증강 확산 모델(RDM)이 개인 데이터 검색 시 샘플 수준 정보 유출 문제가 있음을 보여준다.
- 이를 해결하기 위해 차등 프라이버시 보장 하에 개인 데이터 검색을 수행하는 DP-RDM 프레임워크를 제안한다.
- 개인 데이터 검색 시 노이즈를 추가하여 프라이버시를 보장하고, 공개 데이터와 혼합하여 생성 품질을 향상시킨다.
- RDM 모델 학습 시에도 노이즈를 추가하여 노이즈에 강건한 모델을 학습한다.
- MS-COCO, Shutterstock 등의 데이터셋에서 실험을 수행하여 DP-RDM이 개인 데이터를 활용하면서도 프라이버시를 보장할 수 있음을 보여준다.
- 최대 10,000개의 쿼리에 대해 ϵ=10의 프라이버시 예산 하에서 공개 데이터만 사용한 경우보다 3.5점 향상된 FID 성능을 달성한다.
統計資料
개인 데이터셋 크기 n=1M, 10M, 100M일 때 개념 밀도 r에 따른 프라이버시 손실 ϵ 분석
일반적인 개념(r=0.001)의 경우 n=100M에서 ϵ=0.21로 낮은 프라이버시 손실 달성 가능
引述
"Text-to-image diffusion models have been shown to suffer from sample-level memorization, possibly reproducing near-perfect replica of images that they are trained on, which may be undesirable."
"To remedy this issue, we develop the first differentially private (DP) retrieval-augmented generation algorithm that is capable of generating high-quality image samples while providing provable privacy guarantees."