ControlNet++는 생성된 이미지와 입력 조건 간의 픽셀 수준 일관성을 최적화하여 조건부 생성을 개선한다.
SAFEGEN은 텍스트 입력과 무관하게 텍스트-이미지 생성 모델의 시각적 표현을 조정하여 포르노그래픽 이미지 생성을 방지한다.
텍스트-이미지 확산 모델에 주입된 메모리화를 분석하여 무단 데이터 사용을 탐지할 수 있다.
과제 벡터를 사용하면 특정 입력 프롬프트에 의존하지 않고 안전하게 개념을 제거할 수 있다.
텍스트-이미지 확산 모델에서 크로스 어텐션은 초기 추론 단계에서만 중요하며, 이후 단계에서는 크로스 어텐션 맵을 캐싱하고 재사용할 수 있어 추론 속도를 크게 높일 수 있다.
본 연구는 언어 모델 임베딩 공간을 활용하여 텍스트-이미지 생성 모델의 편향을 효율적으로 조작하는 방법을 제안한다. 이를 통해 정확한 프롬프트 엔지니어링, 편향 완화, 그리고 은밀한 백도어 공격이 가능하다.
제안된 가상 보장 증폭 공격(VA3) 프레임워크는 확률적 저작권 보호 메커니즘의 취약점을 드러내며, 지속적인 상호작용을 통해 저작권 침해 콘텐츠를 생성할 수 있는 높은 확률을 보여줍니다.
최신 텍스트-이미지 생성 모델을 통해 생성된 이미지의 출처를 정확하게 식별할 수 있으며, 이를 위해 모델의 세부 하이퍼파라미터와 후처리 기법의 영향을 분석할 필요가 있다.