核心概念
DP-RDM은 공개 데이터로 학습된 텍스트 기반 이미지 생성 모델을 개인 데이터 도메인에 미세 조정 없이 적응시킬 수 있는 차등 프라이버시 보장 기술이다.
要約
이 논문은 텍스트 기반 이미지 생성 모델이 학습 데이터의 개별 샘플을 복제할 수 있는 문제를 해결하기 위해 차등 프라이버시 기반의 검색 보강 이미지 생성 모델 DP-RDM을 제안한다.
DP-RDM은 공개 데이터로 학습된 텍스트 기반 이미지 생성 모델에 차등 프라이버시 보장 검색 메커니즘을 결합한다. 이를 통해 개인 데이터 도메인에 미세 조정 없이 적응할 수 있으며, 동시에 엄격한 차등 프라이버시 보장을 제공한다.
구체적으로 DP-RDM은 다음과 같은 핵심 구성요소를 가진다:
- 차등 프라이버시 보장 k-NN 검색 메커니즘: 개인 데이터셋에서 관련 이미지를 검색하고 여기에 캘리브레이션된 노이즈를 추가하여 프라이버시를 보장한다.
- 검색 결과 보간: 공개 데이터셋에서 검색한 이미지와 차등 프라이버시 보장 검색 결과를 보간하여 생성 품질을 높인다.
- 검색 보강 확산 모델 학습: 검색 결과에 노이즈가 포함된 상황에서도 효과적으로 이미지를 생성할 수 있도록 모델을 학습한다.
실험 결과, DP-RDM은 MS-COCO와 Shutterstock 데이터셋에서 최대 10,000개의 쿼리에 대해 ϵ=10의 프라이버시 예산 하에서 우수한 이미지 생성 성능을 보였다. 특히 대규모 개인 데이터셋을 활용할 경우 공개 데이터셋만 사용할 때보다 3.5점 이상 향상된 FID 성능을 달성했다.
統計
개인 데이터셋 크기 n=1M, 10M, 100M일 때 개념 밀도 r에 따른 프라이버시 손실 ϵ은 0.21 ~ 105 수준이다.
검색 이웃 수 k가 증가할수록 검색 결과의 L2 노름이 감소하여 관련성이 낮아진다.
引用
"DP-RDM은 공개 데이터로 학습된 텍스트 기반 이미지 생성 모델을 개인 데이터 도메인에 미세 조정 없이 적응시킬 수 있는 차등 프라이버시 보장 기술이다."
"DP-RDM은 차등 프라이버시 보장 k-NN 검색 메커니즘, 검색 결과 보간, 검색 보강 확산 모델 학습 등의 핵심 구성요소를 가진다."
"DP-RDM은 MS-COCO와 Shutterstock 데이터셋에서 최대 10,000개의 쿼리에 대해 ϵ=10의 프라이버시 예산 하에서 우수한 이미지 생성 성능을 보였다."