이 연구는 확산 모델의 안전성 문제를 다룬다. 기존 연구들은 주로 사후 처리 기법, 모델 특화 방식, 또는 이미지 품질 저하를 초래하는 방법을 사용했다. 이와 달리 본 연구는 다음과 같은 장점을 가진 새로운 블랙박스 공격 방법을 제안한다:
이 접근법의 핵심은 텍스트-이미지 모델의 분류기 없는 가이드(CFG) 특성에서 영감을 얻은 것이다. CLIP 임베딩 공간에서 단순한 가이드를 수행하고, 의미 손실과 민감한 단어 목록을 추가하면 효과적인 공격이 가능하다. 또한 이 결과는 기존 방어 메커니즘의 취약점을 드러낸다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jiachen Ma,A... alle arxiv.org 04-05-2024
https://arxiv.org/pdf/2404.02928.pdfDomande più approfondite