이 논문은 거친 시각적 조건에서도 사용자의 의도를 잘 반영할 수 있는 제어 가능한 이미지 생성 방법인 SmartControl을 제안합니다.
먼저, 텍스트 프롬프트와 시각적 조건 간의 불일치 영역을 식별하고 국소적인 제어 강도를 예측하는 Control Scale Predictor를 도입했습니다. 이를 통해 불일치 영역에서는 제어 강도를 낮추고, 나머지 영역에서는 시각적 조건의 정보를 효과적으로 활용할 수 있습니다.
또한, 텍스트 프롬프트와 거친 시각적 조건이 불일치하는 데이터셋을 구축하여 학습을 진행했습니다. 이를 통해 다양한 시각적 조건 유형에서 우수한 성능을 보였습니다.
실험 결과, SmartControl은 기존 방법들에 비해 텍스트-이미지 정렬 성능이 크게 향상되었으며, 시각적 조건과의 구조적 유사성도 잘 유지하는 것으로 나타났습니다. 또한 사용자 평가에서도 대부분의 경우 SmartControl이 선호되었습니다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies