Keskeiset käsitteet
SmartControl은 텍스트 프롬프트와 시각적 조건 간의 불일치 영역을 완화하여 사용자의 의도에 부합하는 사실적인 이미지를 생성합니다.
Tiivistelmä
이 논문은 거친 시각적 조건에서도 사용자의 의도를 잘 반영할 수 있는 제어 가능한 이미지 생성 방법인 SmartControl을 제안합니다.
먼저, 텍스트 프롬프트와 시각적 조건 간의 불일치 영역을 식별하고 국소적인 제어 강도를 예측하는 Control Scale Predictor를 도입했습니다. 이를 통해 불일치 영역에서는 제어 강도를 낮추고, 나머지 영역에서는 시각적 조건의 정보를 효과적으로 활용할 수 있습니다.
또한, 텍스트 프롬프트와 거친 시각적 조건이 불일치하는 데이터셋을 구축하여 학습을 진행했습니다. 이를 통해 다양한 시각적 조건 유형에서 우수한 성능을 보였습니다.
실험 결과, SmartControl은 기존 방법들에 비해 텍스트-이미지 정렬 성능이 크게 향상되었으며, 시각적 조건과의 구조적 유사성도 잘 유지하는 것으로 나타났습니다. 또한 사용자 평가에서도 대부분의 경우 SmartControl이 선호되었습니다.
Tilastot
"고양이가 자전거를 타고 있다."
"사자가 피라미드 앞에서 기타를 연주하고 있다."
Lainaukset
"사람의 시각적 상상력은 종종 유추나 거친 스케치로부터 시작된다."
"기존 레이아웃 제어 가능 T2I 생성 모델은 명확한 인공물이 있는 열화된 생성 결과를 산출하는 경향이 있다."