이 논문은 차별적 프라이버시 보장을 위한 DP-SGD 알고리즘에서 배치 샘플링 방식에 따른 프라이버시 보장 수준의 차이를 분석한다.
DP-SGD는 현재 신경망 모델 학습에 널리 사용되는 대표적인 차별적 프라이버시 보장 알고리즘이다. DP-SGD는 미니 배치 단위로 데이터를 처리하며, 각 미니 배치에 대해 노이즈가 추가된 평균 gradient를 계산하여 모델을 업데이트한다.
DP-SGD의 프라이버시 보장 수준은 배치 샘플링 방식에 따라 크게 달라질 수 있다. 일반적으로 사용되는 셔플링 기반 배치 샘플링은 프라이버시 분석이 어렵지만, 포아송 서브샘플링 기반 분석은 비교적 잘 이해되어 있다.
이 논문에서는 결정적 배치 샘플링, 포아송 서브샘플링, 셔플링 기반 배치 샘플링 등 다양한 배치 샘플링 방식에 대한 프라이버시 보장 수준을 비교 분석한다.
분석 결과, 셔플링 기반 DP-SGD가 결정적 배치 샘플링보다 항상 더 강한 프라이버시 보장을 제공하지만, 포아송 서브샘플링 기반 DP-SGD와 비교하면 오히려 프라이버시 보장 수준이 크게 낮을 수 있음을 보여준다.
이는 실제 구현에서는 셔플링 기반 DP-SGD를 사용하지만, 포아송 서브샘플링 기반 분석 결과를 보고하는 일반적인 관행에 문제가 있음을 시사한다. 따라서 DP-SGD 알고리즘 적용 시 배치 샘플링 방식에 따른 정확한 프라이버시 분석이 필요하다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Lynn Chua,Ba... at arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17673.pdfDeeper Inquiries