Centrala begrepp
본 연구는 확산 모델의 취약점을 이용하여 안전하지 않은 이미지를 생성하는 새로운 공격 방법을 제안한다. 이를 통해 현재 방어 메커니즘의 한계를 밝히고자 한다.
Sammanfattning
이 연구는 확산 모델의 안전성 문제를 다룬다. 기존 연구들은 주로 사후 처리 기법, 모델 특화 방식, 또는 이미지 품질 저하를 초래하는 방법을 사용했다. 이와 달리 본 연구는 다음과 같은 장점을 가진 새로운 블랙박스 공격 방법을 제안한다:
- 지향적이고 의미 주도적인 공격이 가능하여 사용자 커뮤니티에 위험을 초래할 수 있다.
- 화이트박스 공격을 블랙박스 방식으로 능가한다.
- 사후 처리가 필요하지 않다.
이 접근법의 핵심은 텍스트-이미지 모델의 분류기 없는 가이드(CFG) 특성에서 영감을 얻은 것이다. CLIP 임베딩 공간에서 단순한 가이드를 수행하고, 의미 손실과 민감한 단어 목록을 추가하면 효과적인 공격이 가능하다. 또한 이 결과는 기존 방어 메커니즘의 취약점을 드러낸다.
Statistik
이 접근법은 화이트박스 공격을 블랙박스 방식으로 능가한다.
이 접근법은 사후 처리 없이도 안전하지 않은 이미지를 생성할 수 있다.
이 접근법은 입력 프롬프트와 높은 관련성을 유지하면서 안전하지 않은 이미지를 생성할 수 있다.
Citat
"본 연구는 확산 모델의 취약점을 이용하여 안전하지 않은 이미지를 생성하는 새로운 공격 방법을 제안한다."
"이 접근법의 핵심은 텍스트-이미지 모델의 분류기 없는 가이드(CFG) 특성에서 영감을 얻은 것이다."
"이 결과는 기존 방어 메커니즘의 취약점을 드러낸다."