Core Concepts
잠재 확산 모델을 악용하여 저작권이 있는 콘텐츠를 숨기고 재생산할 수 있다.
Abstract
이 논문은 잠재 확산 모델(LDM)을 악용하여 저작권이 있는 콘텐츠를 숨기고 재생산할 수 있는 방법을 제시한다.
기존의 저작권 침해 방식은 훈련 데이터에 저작권 콘텐츠를 직접 포함하는 것이었다. 이에 대한 대응책으로 훈련 데이터를 시각적으로 검사하는 방식이 사용되었다.
그러나 이 논문에서는 LDM의 구조적 특성을 악용하여 저작권 콘텐츠와 시각적으로 크게 다른 "가장" 데이터를 생성할 수 있음을 보여준다. 이 가장 데이터는 저작권 콘텐츠와 유사한 잠재 공간 정보를 가지고 있어, LDM 모델 학습 시 저작권 콘텐츠를 재생산할 수 있다.
이를 위해 논문에서는 가장 데이터 생성 알고리즘, 가장 데이터 검출 방법 등을 제안한다. 또한 "접근"의 개념을 확장하여 "인지"라는 새로운 개념을 도입한다.
실험 결과, 제안된 가장 데이터를 통해 텍스트 역전, DreamBooth, LDM 학습 등에서 저작권 콘텐츠를 재생산할 수 있음을 보여준다. 이는 기존 저작권 보호 방식의 한계를 드러내며, 새로운 대응책이 필요함을 시사한다.
Stats
잠재 확산 모델은 고정된 인코더를 사용하여 잠재 공간에서 확산 학습을 수행한다.
이를 악용하여 저작권 콘텐츠와 시각적으로 크게 다른 "가장" 데이터를 생성할 수 있다.
가장 데이터는 저작권 콘텐츠와 유사한 잠재 공간 정보를 가지고 있어, LDM 모델 학습 시 저작권 콘텐츠를 재생산할 수 있다.
Quotes
"저작권 침해는 생성 모델이 훈련 단계에서 접근한 저작권이 있는 데이터와 상당히 유사한 샘플을 생성할 때 발생할 수 있다."
"우리는 이러한 시각적 감사가 은폐된 저작권 침해를 대부분 간과한다고 주장한다. 여기서 은폐된 저작권 침해란 저작권이 있는 샘플과 시각적으로 크게 다르지만 여전히 잠재 확산 모델 훈련에 영향을 미치는 위장을 구축하는 것을 의미한다."