Core Concepts
대조적 탈노이즈 점수(CDS)는 원본 이미지의 구조적 요소를 유지하면서도 타겟 텍스트 프롬프트에 맞게 내용을 변환할 수 있는 균형 잡힌 편집 결과를 제공한다.
Abstract
이 논문은 텍스트 기반 이미지 편집 기술에 대해 다룹니다. 최근 텍스트-이미지 확산 모델의 발전으로 이미지 편집 방법이 다양해지고 발전하고 있습니다.
Delta Denoising Score(DDS)는 Score Distillation Sampling(SDS) 프레임워크를 기반으로 한 이미지 편집 기술로, 텍스트-이미지 확산 모델의 풍부한 생성 사전 지식을 활용합니다. 하지만 DDS는 원본 이미지의 특정 구조적 요소를 보존하는 데 한계가 있습니다.
이를 해결하기 위해 저자들은 잠재 확산 모델(LDM)에 적용할 수 있는 Contrastive Denoising Score(CDS)를 제안합니다. CDS는 DDS 프레임워크에 대조적 학습 손실(CUT 손실)을 통합하여, LDM의 중간 특징(self-attention 레이어)을 활용해 구조적 일관성을 유지하면서도 내용 제어 가능성을 보장합니다.
정성적 결과와 비교 실험을 통해 제안 방법의 효과를 입증합니다. 또한 CDS가 3D 객체 생성 등 다른 도메인에도 적용 가능함을 보여줍니다.
Stats
텍스트 조건에 잘 부합하는 이미지를 생성할 수 있다는 것을 CLIP 정확도로 확인했습니다.
원본 이미지의 구조적 정보를 잘 유지하고 있다는 것을 DINO-ViT 구조 거리와 LPIPS 거리로 확인했습니다.
Quotes
"CDS는 원본 이미지의 구조적 요소를 유지하면서도 타겟 텍스트 프롬프트에 맞게 내용을 변환할 수 있는 균형 잡힌 편집 결과를 제공한다."
"CDS는 LDM의 중간 특징(self-attention 레이어)을 활용해 구조적 일관성을 유지하면서도 내용 제어 가능성을 보장한다."