Kernkonzepte
그림자 모델과 타겟 모델 간의 중요한 정렬 차이로 인해 화이트박스 환경에서의 멤버십 추론 공격 성능이 저하된다. 이를 해결하기 위해 모델 정렬 기법을 적용하면 공격 성능을 크게 향상시킬 수 있다.
Zusammenfassung
이 논문은 화이트박스 환경에서의 멤버십 추론 공격에 대해 분석하고 있다.
- 그림자 모델과 타겟 모델 간의 중요한 정렬 차이가 공격 성능 저하의 주요 원인임을 밝혔다.
- 이러한 정렬 차이의 주된 원인은 그림자 모델과 타겟 모델의 가중치 초기화 방식이 다르기 때문임을 확인했다.
- 모델 정렬 기법을 적용하여 그림자 모델과 타겟 모델의 정렬도를 높이면 공격 성능을 크게 향상시킬 수 있음을 보였다.
- 내부 레이어 활성화 기반 공격은 정렬 차이에 크게 영향을 받지만, 기울기 기반 공격은 상대적으로 덜 영향을 받는다는 것을 발견했다.
- 이를 통해 부분적으로 공개된 모델(마지막 분류 레이어가 제거된 모델)이 이전에 생각했던 것보다 더 취약할 수 있음을 시사한다.
Statistiken
타겟 모델과 그림자 모델의 가중치 초기화가 다른 경우, 첫 번째 레이어의 가중치 정렬 점수는 12.09로 랜덤 퍼뮤테이션과 유사한 수준이다.
CIFAR10 데이터셋에서 1%의 거짓 양성률로 화이트박스 멤버십 추론 공격을 수행할 때, 정렬된 그림자 모델을 사용하면 진짜 양성률이 4.5% 향상된다.
Zitate
"On the CIFAR10 dataset with a false positive rate of 1%, white-box MIA using re-aligned shadow models improves the true positive rate by 4.5%."
"Taken together, our results highlight that on-device deployment increases the attack surface and that the newly available information can be used by an adversary."