核心概念
텍스트-이미지 생성 모델에서 학습 가능한 프롬프트를 통해 저작권 또는 비윤리적 콘텐츠와 같은 바람직하지 않은 개념을 제거할 수 있다.
要約
이 논문은 텍스트-이미지 생성 모델에서 바람직하지 않은 개념을 제거하는 새로운 방법을 제안한다.
- 저자들은 학습 가능한 프롬프트를 모델의 크로스-어텐션 모듈에 포함시켜 바람직하지 않은 개념에 대한 지식을 프롬프트로 전달하고, 이를 통해 모델 매개변수와 해당 텍스트 입력에 대한 의존성을 줄였다.
- 이를 통해 바람직하지 않은 개념을 제거하는 것이 더 안정적이며 다른 개념에 미치는 부정적인 영향을 최소화할 수 있다.
- 실험 결과, 제안 방법은 객체 지향 개념, 비윤리적 콘텐츠, 예술 스타일 개념 제거 등 다양한 설정에서 기존 방법들보다 우수한 성능을 보였다.
統計
바람직하지 않은 개념을 제거하면 다른 관련 개념에도 부정적인 영향을 미칠 수 있다.
기존 방법들은 바람직하지 않은 개념을 제거하는 데 효과적이지만, 다른 개념을 보존하는 데는 어려움이 있다.
제안 방법은 바람직하지 않은 개념을 효과적으로 제거하면서도 다른 개념을 잘 보존할 수 있다.
引用
"텍스트-이미지 생성 모델은 방대한 인터넷 데이터를 통해 훈련되어 다양한 개념을 재현할 수 있게 되었지만, 이 과정에서 인종차별, 성차별, 폭력 등의 바람직하지 않은 개념도 학습하게 되었다."
"바람직하지 않은 개념을 모델에서 완전히 제거하는 것은 매우 중요하지만, 동시에 다른 관련 개념에 미치는 부정적인 영향을 최소화하는 것도 중요하다."