核心概念
설명 기반 멤버십 추론 공격에서 공격자가 반복적으로 상호 작용하여 최적의 설명 분산 임계값을 계산할 수 있음을 수학적으로 증명한다.
要約
이 논문은 설명 기반 멤버십 추론 공격(MIA)에 대한 게임 이론적 접근을 제안한다. 기존 연구는 단일 "what-if" 상호 작용 시나리오에서만 MIA를 분석했지만, 이 논문은 반복적인 상호 작용 설정에서 공격자의 능력에 영향을 미치는 요인을 구분한다.
논문의 주요 내용은 다음과 같다:
- 공격자와 ML 시스템 간의 상호 작용을 연속 시간 확률 신호 게임 프레임워크로 모델링한다.
- 이 게임의 마르코프 완전 균형(MPE)을 특성화하고, 최적 설명 분산 경로 U(π)와 L(π)를 정의한다.
- 다양한 설명 방법과 데이터셋에 대해 실험을 수행하여, 공격자의 MIA 능력이 설명 방법, 입력 차원, 모델 크기, 학습 라운드 수 등 다양한 요인에 따라 달라짐을 보여준다.
統計
설명 분산 프로세스 EXv_t는 기하 브라운 운동(GBM) 확률 과정을 따른다.
시스템의 최적 설명 분산 경로 U(π_t)는 π_t에 대해 비증가하고 연속적으로 미분 가능하다.
공격자의 최적 설명 분산 경로 L(π_t)는 π_t에 대해 증가하며, L^+(π_t)와 L^-(π_t)라는 상한과 하한 함수로 특성화된다.
引用
"설명 기반 MIA 공격에서 공격자는 반복적으로 상호 작용하여 설명 분산 임계값을 계산하려 한다."
"시스템은 공격자의 유형(정직 또는 악의적)을 완벽하게 알지 못하므로, 생성된 설명에 노이즈를 추가하여 전달한다."
"정직한 사용자에게 설명의 가치는 관련성에 있지만, 악의적인 사용자에게는 MIA 공격에 활용할 수 있는 정보에 있다."