핵심 개념
확산 모델에서 학습되지 않은 개념을 복원하기 위해 전이 가능한 적대적 공격 전략을 제안한다.
초록
이 논문은 텍스트-이미지 확산 모델에서 학습되지 않은 개념을 복원하는 문제를 다룹니다.
- 기존 방법의 한계:
- 전이성 부족: 일부 방법은 학습되지 않은 모델에 대한 접근이 필요하며, 학습된 적대적 입력이 다른 학습되지 않은 모델에 전이되지 않음.
- 제한적 공격: 프롬프트 수준의 방법은 유명인 ID와 같은 좁은 개념을 복원하는 데 어려움.
- 제안 방법:
- 적대적 검색 전략을 활용하여 다양한 학습되지 않은 모델에 전이 가능한 적대적 임베딩을 찾음.
- 원본 Stable Diffusion 모델을 대리 모델로 사용하여 반복적으로 개념을 지우고 검색하여 전이 가능한 임베딩을 찾음.
- 실험 결과:
- 제안 방법은 다양한 학습되지 않은 모델에 대해 전이성이 우수하며, 객체, 예술 스타일, NSFW 콘텐츠, 유명인 ID 등 다양한 수준의 개념을 효과적으로 복원할 수 있음.
통계
제안 방법은 원본 Stable Diffusion 모델을 대리 모델로 사용하여 반복적으로 개념을 지우고 검색함.
이를 통해 다양한 학습되지 않은 모델에 전이 가능한 적대적 임베딩을 찾을 수 있음.
인용구
"확산 모델에서 학습되지 않은 개념을 복원하기 위해 전이 가능한 적대적 공격 전략을 제안한다."
"제안 방법은 다양한 학습되지 않은 모델에 대해 전이성이 우수하며, 객체, 예술 스타일, NSFW 콘텐츠, 유명인 ID 등 다양한 수준의 개념을 효과적으로 복원할 수 있다."