Core Concepts
본 논문은 안정적이고 시각적으로 일관된 이미지 인페인팅을 달성하기 위해 사전 학습된 안정적 확산 모델(Stable Diffusion)을 활용하는 방법을 제안한다.
Abstract
본 논문은 이미지 인페인팅 문제에 대한 두 가지 주요 이슈, 즉 맥락 불안정성과 시각적 불일치를 해결하기 위한 방법을 제안한다.
맥락 불안정성 문제:
최근 생성 모델 기반 인페인팅 기법은 강력한 생성 능력을 활용하지만, 이로 인해 마스크 영역에 임의의 객체가 생성되는 문제가 발생한다.
이를 해결하기 위해 논문은 안정적인 Masked Auto-Encoder(MAE) 사전 정보를 활용하여 사전 학습된 Stable Diffusion 모델의 생성 능력을 유지하면서도 맥락 안정성을 높이는 방법을 제안한다.
시각적 불일치 문제:
Stable Diffusion 모델은 KL-VAE 디코더를 사용하여 이미지를 생성하지만, 이로 인해 마스크 영역과 비마스크 영역 간 색상 불일치 문제가 발생한다.
논문은 이를 해결하기 위해 언마스크 영역 정보를 활용하여 디코더를 학습시키는 지역 조화화 방법을 제안한다.
이를 통해 ASUKA 모델은 맥락 안정성과 시각적 일관성을 모두 달성할 수 있다.
Stats
마스크 영역에 임의의 객체를 생성하는 Stable Diffusion 모델의 문제를 보여주는 예시
마스크 영역과 비마스크 영역 간 색상 불일치 문제를 보여주는 예시
Quotes
"Recent progress in inpainting increasingly relies on genera-tive models, leveraging their strong generation capabilities for addressing large irregular masks. However, this enhanced generation often intro-duces context-instability, leading to arbitrary object generation within masked regions."
"Furthermore, the inpainted results of SD may suffer from "visual inconsis-tency" problem. This problem, less explored in academia but critical for real-world industrial applications, results in significant color discrepancies between inpainted and unmasked regions and exhibits smear-like traces in the image."