核心概念
데이터 포인트 제거 요청에 대해 효율적으로 모델 매개변수를 업데이트하여 재학습과 동등한 수준의 모델 성능을 달성하는 근사 언러닝 기법을 제안한다.
摘要
이 논문은 데이터 프라이버시 보장을 위한 기계 학습 모델 언러닝 기법을 제안한다.
핵심 내용은 다음과 같다:
- 스토캐스틱 경사 랑주뱅 언러닝 (SGLU) 기법을 제안한다. SGLU는 투영된 노이즈 SGD (PNSGD)를 기반으로 하며, 근사 언러닝 문제에 대한 이론적 보장을 제공한다.
- SGLU는 기존 full-batch 기반 언러닝 기법에 비해 더 나은 프라이버시-유틸리티-복잡도 트레이드오프를 제공한다. 특히 미니배치 기반 업데이트를 활용하여 복잡도를 크게 개선할 수 있다.
- SGLU는 순차적 언러닝과 배치 언러닝을 자연스럽게 지원한다. 이를 위해 인접 학습 과정 간 Wasserstein 거리 상한을 추적하는 분석을 제시한다.
- 실험 결과, SGLU는 동일한 프라이버시 제약 하에서 기존 방법 대비 2% 및 10%의 gradient 계산만으로도 유사한 유틸리티를 달성할 수 있음을 보인다.
統計資料
데이터 포인트 제거 시 모델 매개변수 업데이트에 필요한 gradient 계산량이 기존 방법 대비 2% 및 10% 수준에 불과하다.
동일한 프라이버시 제약 하에서 제안 기법의 모델 성능은 기존 방법과 유사하다.
引述
"The right to be forgotten" ensured by laws for user data privacy becomes increasingly important.
Machine unlearning aims to efficiently remove the effect of certain data points on the trained model parameters so that it can be approximately the same as if one retrains the model from scratch.