LMEraser는 대규모 모델의 효율적이고 정확한 언러닝을 위해 공개 데이터와 개인 데이터를 분리하고 적응형 프롬프트 튜닝 메커니즘을 사용합니다.
설명 기반 멤버십 추론 공격에서 공격자가 반복적으로 상호 작용하여 최적의 설명 분산 임계값을 계산할 수 있음을 수학적으로 증명한다.
이 논문은 특징 분할 집계(FPA)라는 새로운 증명 가능한 방어 기법을 제안합니다. FPA는 ℓ0 회피, 백도어, 오염 공격의 조합에 대한 강건성을 제공하며, 기존 ℓ0 방어 기법보다 최대 4배 더 큰 중간 보증을 제공하면서도 최대 3,000배 더 빠른 속도를 보입니다.
양자화는 신경망의 결정 경계로부터의 평균 거리를 증가시키고 일부 공격의 추정 기울기를 폭발 또는 소실시킨다. 또한 양자화는 노이즈 감쇠 또는 증폭 효과를 가지며 기울기 불일치를 야기한다. 입력 전처리 방어는 작은 교란에 대해 인상적인 결과를 보이지만 교란이 증가할수록 효과가 감소한다. 반면 훈련 기반 방어는 양자화 후에도 결정 경계로부터의 평균 거리를 증가시키지만, 양자화 이동 및 기울기 불일치 현상을 완화해야 한다.
모델 제공자는 모델 가중치와 데이터를 비밀로 유지하면서도 다른 당사자가 모델과 데이터 속성을 신뢰할 수 있는 방식으로 감사할 수 있다.
GuaranTEE는 Arm의 Confidential Computing Architecture(CCA)를 활용하여 엣지 디바이스에서 기계 학습 모델을 프라이버시 보장 및 검증 가능한 방식으로 배포하는 프레임워크이다.
모델 훼손 공격에서 생성된 데이터의 다양성이 핵심적인 요소이며, 이를 활용한 단순화된 공격 프레임워크를 제안한다.
SSL 모델에 대한 주파수 기반 백도어 공격을 효과적으로 방어할 수 있는 두 가지 방법을 제안한다. 첫째, 모델 학습 시 가우시안 블러를 활용하여 공격 패턴의 분산을 높임으로써 모델이 공격 패턴을 학습하지 않도록 한다. 둘째, 추론 시 RGB 이미지 대신 Y' 채널만을 사용하여 색 정보가 변조된 공격을 효과적으로 차단한다.
공개 모델을 활용한 전이 공격은 현실적이고 위협적이므로, 이에 대한 효과적인 방어 기법이 필요하다.
Compact는 복잡한 활성화 함수를 안전한 다자간 계산(MPC) 기법에 적용할 수 있는 분할 다항식 근사치를 생성합니다. Compact는 입력 밀도를 인식하여 정확도 손실을 최소화하면서도 계산 효율성을 높입니다.