แนวคิดหลัก
일반화된 일관성 궤적 모델(GCTM)은 확산 모델의 반복적 특성을 활용하여 임의의 두 분포 간 단일 단계 변환을 가능하게 한다. 이를 통해 이미지 편집, 복원, 변환 등 다양한 이미지 조작 작업을 효율적으로 수행할 수 있다.
บทคัดย่อ
이 논문은 일반화된 일관성 궤적 모델(GCTM)을 제안한다. GCTM은 기존의 일관성 궤적 모델(CTM)을 일반화하여 가우시안 잡음에서 데이터로의 변환뿐만 아니라 임의의 두 분포 간 변환을 가능하게 한다.
주요 내용은 다음과 같다:
- GCTM의 이론적 기반을 제시하고, CTM이 GCTM의 특수한 경우임을 증명한다.
- GCTM의 설계 공간을 설명하고, 각 설계 요소가 하위 작업 성능에 미치는 영향을 분석한다.
- 무조건적 생성, 이미지-대-이미지 변환, 이미지 복원, 이미지 편집, 잠재 공간 조작 등 다양한 실험을 통해 GCTM의 성능을 검증한다.
특히 GCTM은 단일 단계 추론(NFE=1)으로도 경쟁력 있는 성능을 보여, 기존 확산 모델 기반 알고리즘의 계산 효율성을 크게 향상시킬 수 있다.
สถิติ
확산 모델은 복잡한 잡음-데이터 매핑 과정을 단순한 탈잡음 작업의 연속으로 분해할 수 있어 고품질 이미지 합성이 가능하다.
확산 모델은 각 탈잡음 단계에 미세한 유도 항을 주입하여 세부적인 제어가 가능하다.
그러나 확산 모델의 반복적 특성으로 인해 수십에서 수천 개의 신경망 함수 평가가 필요해 실용적 사용이 어렵다.
일관성 궤적 모델(CTM)은 단일 함수 평가로 가우시안 잡음에서 데이터로의 변환을 가능하게 한다.
본 논문에서 제안하는 일반화된 CTM(GCTM)은 임의의 두 분포 간 변환을 가능하게 한다.
คำพูด
"확산 모델은 복잡한 잡음-데이터 매핑 과정을 단순한 탈잡음 작업의 연속으로 분해할 수 있어 고품질 이미지 합성이 가능하다."
"확산 모델은 각 탈잡음 단계에 미세한 유도 항을 주입하여 세부적인 제어가 가능하다."
"그러나 확산 모델의 반복적 특성으로 인해 수십에서 수천 개의 신경망 함수 평가가 필요해 실용적 사용이 어렵다."
"본 논문에서 제안하는 일반화된 CTM(GCTM)은 임의의 두 분포 간 변환을 가능하게 한다."