이 논문은 딥러닝 모델의 무결성을 보장하기 위한 취약한 모델 워터마크 기법을 제안한다. 주요 내용은 다음과 같다:
모델 경계 특성 분석을 통해 민감한 샘플을 생성하는 손실 함수를 제안한다. 이를 통해 모델 경계 근처의 가장 변동성이 큰 영역에 민감한 샘플을 위치시킬 수 있다.
이진 분류 레이어를 추가하여 다중 분류 문제를 이진 분류 문제로 단순화하고, 출력 로짓만을 활용하여 효율적으로 민감한 샘플을 생성한다.
두 단계의 샘플 생성 과정을 통해 모델 경계 사이에 샘플 쌍을 생성한다. 이를 통해 모델 변경 시 민감한 샘플의 출력 변화를 극대화할 수 있다.
실험 결과, 제안 기법은 기존 방법들에 비해 뛰어난 민감도와 효율성을 보여주었다. 특히 백도어 삽입, 미세 조정, 가지치기, 양자화 등의 모델 변경에 대해 높은 탐지 성능을 나타냈다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문