취약한 모델 워터마크는 모델에 대한 의도적 또는 우발적 변경을 민감하게 감지하여 모델의 의도된 기능이 훼손되는 것을 방지한다.
그래프 신경망 네트워크를 활용하여 소량의 깨끗한 데이터만으로도 딥러닝 모델의 백도어 공격을 효과적으로 탐지할 수 있는 One-class 그래프 임베딩 분류 기법을 제안한다.
BRUSLEATTACK은 모델 출력 점수를 관찰하여 효율적으로 희소 적대적 예제를 생성하는 새로운 알고리즘이다. 이는 기존 방법보다 쿼리 효율성과 공격 성공률이 높다.
단일 OoD 이미지를 활용하여 효율적이고 안전하며 강력한 워터마크를 딥러닝 모델에 삽입할 수 있다.