核心概念
DP-RDM은 공개 데이터로 학습된 확산 모델을 개인 데이터 도메인에 미세 조정 없이 적응시킬 수 있는 차등 프라이버시 보장 기술이다.
摘要
이 논문은 텍스트 기반 이미지 생성 모델인 확산 모델이 학습 데이터의 개별 샘플을 복제할 수 있는 문제를 해결하기 위해 제안된 DP-RDM 기술을 소개한다.
DP-RDM의 핵심 아이디어는 다음과 같다:
- 공개 데이터로 학습된 확산 모델에 개인 데이터 검색 메커니즘을 결합하여 개인 도메인에 적응시킨다.
- 개인 데이터 검색 시 차등 프라이버시 보장을 위해 검색 결과에 캘리브레이션된 노이즈를 추가한다.
- 공개 데이터 검색 결과와 개인 데이터 검색 결과를 적절히 혼합하여 이미지를 생성한다.
실험 결과, DP-RDM은 CIFAR-10, MS-COCO, Shutterstock 데이터셋에서 차등 프라이버시 보장 하에 높은 품질의 이미지를 생성할 수 있음을 보여준다. 특히 대규모 개인 데이터셋을 활용할 경우 공개 데이터만 사용할 때보다 3.5점 이상 향상된 FID 성능을 달성할 수 있다.
统计
개인 데이터셋 Shutterstock은 239M개의 이미지-캡션 쌍으로 구성되어 있다.
MS-COCO 데이터셋은 얼굴 블러링 처리된 버전을 사용하였다.
引用
"Text-to-image diffusion models have been shown to suffer from sample-level memorization, possibly reproducing near-perfect replica of images that they are trained on, which may be undesirable."
"To remedy this issue, we develop the first differentially private (DP) retrieval-augmented generation algorithm that is capable of generating high-quality image samples while providing provable privacy guarantees."