Core Concepts
특정 데이터 클래스의 정보를 선별적으로 제거하여 모델의 성능을 저하시키는 동시에 다른 클래스에 대한 성능은 유지하는 방법을 제안한다.
Abstract
이 연구는 사용자 데이터 프라이버시와 안전을 위해 기계 학습 모델에서 특정 데이터 클래스의 정보를 선별적으로 제거하는 클래스 언러닝 문제를 다룬다.
클래스 언러닝 문제를 베이지안 관점에서 정의하고, 로그 우도 최소화와 안정성 정규화를 결합한 손실 함수를 제안한다.
안정성 정규화는 Fisher 정보 행렬과 사전 모델 파라미터와의 마할라노비스 거리 및 L2 거리를 포함한다.
제안 방법인 Partially-Blinded Unlearning (PBU)은 전체 데이터셋에 대한 접근 없이도 우수한 성능을 달성할 수 있다는 특징이 있다.
ResNet-18, ResNet-34, ResNet-50, AllCNN 모델을 사용하여 MNIST, CIFAR10, CIFAR100, Food101 데이터셋에서 실험을 수행했으며, 기존 방법들을 능가하는 성능을 보였다.
Stats
언러닝 대상 클래스에 대한 정확도는 0%에 가깝게 낮추면서도 유지 클래스에 대한 정확도는 기존 모델 수준을 유지할 수 있다.
멤버십 추론 공격(MIA) 정확도는 50% 미만으로 유지할 수 있다.
언러닝 시간은 기존 방법들에 비해 훨씬 적은 에폭 수로 수행할 수 있다.
Quotes
"특정 데이터 클래스의 정보를 선별적으로 제거하여 모델의 성능을 저하시키는 동시에 다른 클래스에 대한 성능은 유지하는 방법을 제안한다."
"제안 방법인 Partially-Blinded Unlearning (PBU)은 전체 데이터셋에 대한 접근 없이도 우수한 성능을 달성할 수 있다는 특징이 있다."