Core Concepts
텍스트 투 이미지 생성 모델은 매우 적은 수의 중독 데이터로도 특정 프롬프트에 대한 이미지 생성을 완전히 통제할 수 있다.
Abstract
이 논문은 텍스트 투 이미지 생성 모델이 전통적인 데이터 중독 공격에 매우 취약하다는 것을 보여준다. 이는 두 가지 핵심 통찰력에 기반한다:
확산 모델은 수십억 개의 샘플로 학습되지만, 특정 개념 또는 프롬프트와 연관된 학습 샘플 수는 일반적으로 수천 개 수준에 불과하다. 이는 이러한 모델이 특정 대상 프롬프트에 대한 능력을 훼손하는 프롬프트 특정 중독 공격에 취약할 수 있음을 시사한다.
중독 샘플은 독성을 극대화하도록 주의 깊게 설계될 수 있어, 매우 적은 수의 샘플로도 성공할 수 있다.
이 논문은 Nightshade라는 프롬프트 특정 중독 공격을 소개한다. Nightshade는 매우 적은 수의 중독 샘플(100개 미만)로도 Stable Diffusion의 최신 모델(SDXL)의 출력을 완전히 통제할 수 있다. Nightshade는 또한 시각적으로 원본과 구분이 어려운 은밀한 중독 이미지를 생성하며, 관련 개념으로 "번지는" 중독 효과를 보인다. 더욱이, 독립적인 프롬프트에 대한 중간 수준의 Nightshade 공격으로도 모델의 안정성을 무너뜨리고 모든 프롬프트에 대한 이미지 생성 능력을 비활성화할 수 있다. 마지막으로, 이 논문은 Nightshade와 유사한 도구를 웹 크롤러가 opt-out/do-not-crawl 지침을 무시하는 것에 대한 콘텐츠 소유자의 방어책으로 제안하고, 모델 트레이너와 콘텐츠 소유자에게 미칠 수 있는 잠재적 영향을 논의한다.
Stats
확산 모델은 수십억 개의 이미지로 학습되지만, 특정 개념 또는 프롬프트와 연관된 학습 샘플 수는 일반적으로 수천 개 수준에 불과하다.
프롬프트 특정 중독 공격은 100개 미만의 중독 샘플로도 Stable Diffusion의 최신 모델(SDXL)의 출력을 완전히 통제할 수 있다.
중독 공격은 관련 개념으로 "번지는" 효과를 보이며, 독립적인 프롬프트에 대한 중간 수준의 공격으로도 모델의 안정성을 무너뜨릴 수 있다.
Quotes
"확산 모델은 수십억 개의 이미지로 학습되지만, 특정 개념 또는 프롬프트와 연관된 학습 샘플 수는 일반적으로 수천 개 수준에 불과하다."
"Nightshade는 매우 적은 수의 중독 샘플(100개 미만)로도 Stable Diffusion의 최신 모델(SDXL)의 출력을 완전히 통제할 수 있다."
"중독 공격은 관련 개념으로 "번지는" 효과를 보이며, 독립적인 프롬프트에 대한 중간 수준의 공격으로도 모델의 안정성을 무너뜨릴 수 있다."