이 논문은 딥러닝 모델의 무결성을 보장하기 위한 취약한 모델 워터마크 기법을 제안한다. 주요 내용은 다음과 같다:
모델 경계 특성 분석을 통해 민감한 샘플을 생성하는 손실 함수를 제안한다. 이를 통해 모델 경계 근처의 가장 변동성이 큰 영역에 민감한 샘플을 위치시킬 수 있다.
이진 분류 레이어를 추가하여 다중 분류 문제를 이진 분류 문제로 단순화하고, 출력 로짓만을 활용하여 효율적으로 민감한 샘플을 생성한다.
두 단계의 샘플 생성 과정을 통해 모델 경계 사이에 샘플 쌍을 생성한다. 이를 통해 모델 변경 시 민감한 샘플의 출력 변화를 극대화할 수 있다.
실험 결과, 제안 기법은 기존 방법들에 비해 뛰어난 민감도와 효율성을 보여주었다. 특히 백도어 삽입, 미세 조정, 가지치기, 양자화 등의 모델 변경에 대해 높은 탐지 성능을 나타냈다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by ZhenZhe Gao,... klokken arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07572.pdfDypere Spørsmål