Core Concepts
ECNet은 텍스트 입력에 대한 정확한 제어와 강력한 조건 감독을 통해 더 정확하고 강력한 제어 가능한 텍스트 기반 이미지 생성 프레임워크를 제공한다.
Abstract
이 논문은 텍스트 기반 이미지 생성 모델의 제어 가능성을 향상시키기 위한 ECNet 프레임워크를 소개한다.
첫째, ECNet은 텍스트 입력에 대한 정확한 제어를 위해 Spatial Guidance Injector (SGI)를 제안한다. SGI는 텍스트 입력에 정확한 주석 정보를 인코딩하여 모델의 조건 입력을 개선한다.
둘째, ECNet은 Diffusion Consistency Loss (DCL)를 도입하여 탈노이즈 잠재 코드에 대한 감독을 제공한다. DCL은 각 시간 단계의 탈노이즈 잠재 코드와 입력 신호 간의 일관성을 높여 모델의 강건성과 정확성을 향상시킨다.
SGI와 DCL의 결합을 통해 ECNet은 더 정확한 조건 입력과 강력한 조건 감독을 제공하여 기존 모델들을 능가하는 제어 가능한 텍스트 기반 이미지 생성 성능을 보여준다. 실험 결과, ECNet은 스켈레톤, 얼굴 랜드마크, 스케치 등 다양한 조건에서 우수한 성능을 달성했다.
Stats
제안된 ECNet 모델은 기존 모델 대비 스켈레톤 제어 과제에서 AP 43.31%, CAP 62.76%, PCE 1.35로 우수한 성능을 보였다.
ECNet은 얼굴 랜드마크 제어 과제에서 NME 0.657, CLIPSIM 29.46, FID 3.21로 기존 모델을 능가하는 성능을 달성했다.
Quotes
"ECNet은 텍스트 입력에 대한 정확한 제어와 강력한 조건 감독을 통해 더 정확하고 강력한 제어 가능한 텍스트 기반 이미지 생성 프레임워크를 제공한다."
"SGI와 DCL의 결합을 통해 ECNet은 더 정확한 조건 입력과 강력한 조건 감독을 제공하여 기존 모델들을 능가하는 제어 가능한 텍스트 기반 이미지 생성 성능을 보여준다."