Core Concepts
ControlNet++는 생성된 이미지와 입력 조건 간의 픽셀 수준 일관성을 최적화하여 조건부 생성을 개선한다.
Abstract
이 논문은 텍스트-이미지 생성 모델의 조건부 제어 능력을 향상시키는 방법을 제안한다. 기존 방법들은 이미지 조건을 잠재 공간 디노이징 과정에 도입하여 암묵적으로 제어 능력을 달성하지만, 여전히 생성된 이미지와 입력 조건 간의 일관성이 부족하다.
ControlNet++는 사전 학습된 판별 모델을 활용하여 생성된 이미지의 조건을 추출하고, 입력 조건과의 일관성 손실을 최적화함으로써 제어 능력을 명시적으로 향상시킨다. 또한 효율적인 보상 미세 조정 전략을 도입하여 이미지 샘플링에 따른 시간 및 메모리 비용을 크게 줄였다.
실험 결과, ControlNet++는 다양한 조건 제어 하에서 기존 방법 대비 유의미한 성능 향상을 보였다. 예를 들어 세그먼테이션 마스크, 라인 아트 에지, 깊이 조건에서 각각 7.9% mIoU, 13.4% SSIM, 7.6% RMSE 개선을 달성했다.
Stats
세그먼테이션 마스크 조건에서 ControlNet++는 기존 방법 대비 7.9% mIoU 향상을 달성했다.
라인 아트 에지 조건에서 ControlNet++는 기존 방법 대비 13.4% SSIM 향상을 달성했다.
깊이 조건에서 ControlNet++는 기존 방법 대비 7.6% RMSE 향상을 달성했다.
Quotes
"To enhance the controllability of text-to-image diffusion models, existing efforts like ControlNet incorporated image-based conditional controls."
"We reveal that existing methods still face significant challenges in generating images that align with the image conditional controls."
"We propose ControlNet++, a novel approach that improves controllable generation by explicitly optimizing pixel-level cycle consistency between generated images and conditional controls."