Core Concepts
확산 모델의 강력한 생성 능력을 활용하여 의미적으로 타당하고 생동감 있는 컬러를 합성하는 자동 컬러화 파이프라인을 제안한다.
Abstract
본 연구는 자동 이미지 컬러화 문제를 해결하기 위해 확산 모델 기반의 파이프라인을 제안한다. 주요 내용은 다음과 같다:
확산 모델의 강력한 생성 능력을 활용하여 의미적으로 타당하고 생동감 있는 컬러를 합성한다. 이를 위해 입력 흑백 이미지의 휘도 정보를 확산 과정에 반영하여 입력 이미지와의 일관성을 유지한다.
다양한 고수준 의미 정보(카테고리, 캡션, 분할 마스크)를 종합적으로 활용하여 모델의 이미지 내용 이해 능력을 높이고 생동감 있는 컬러 생성을 돕는다.
휘도 정보를 고려한 디코더를 설계하여 세부 구조와 텍스처를 복원하고 전체적인 시각적 품질을 향상시킨다.
실험 결과, 제안 방법은 기존 방법들에 비해 지각적 사실성이 높고 사용자 선호도가 가장 높은 것으로 나타났다. 이는 제안 방법이 다양성과 충실도를 모두 고려하여 우수한 컬러화 성능을 달성했음을 보여준다.
Stats
제안 방법은 기존 GAN 기반, 트랜스포머 기반, 확산 기반 방법들에 비해 FID 지표에서 우수한 성능을 보였다.
제안 방법은 색상 생동감 지표에서도 기존 방법들을 능가하였다.
Quotes
"확산 모델의 강력한 생성 능력을 활용하여 의미적으로 타당하고 생동감 있는 컬러를 합성한다."
"다양한 고수준 의미 정보를 종합적으로 활용하여 모델의 이미지 내용 이해 능력을 높이고 생동감 있는 컬러 생성을 돕는다."
"휘도 정보를 고려한 디코더를 설계하여 세부 구조와 텍스처를 복원하고 전체적인 시각적 품질을 향상시킨다."