이 논문은 레이아웃 기반 이미지 생성(LIS) 문제를 다룬다. 최근 텍스트 기반 이미지 생성 모델은 높은 품질의 이미지를 생성할 수 있지만, 정확한 공간 제어에는 어려움이 있다. 이를 해결하기 위해 연구자들은 레이아웃 정보를 활용하는 LIS 방법을 제안했다.
LIS 방법은 크게 두 가지로 나뉜다. 첫째, 레이아웃-이미지 쌍 데이터를 사용하여 모델을 학습하는 완전 감독 방식이다. 둘째, 사전 학습된 모델을 활용하여 훈련 없이 레이아웃을 제어하는 방식이다.
본 논문에서는 후자의 접근법인 LoCo를 제안한다. LoCo는 두 가지 새로운 제약 조건을 도입한다:
이를 통해 LoCo는 기존 방법들보다 정확한 공간 제어와 의미적 오류 해결 능력을 보인다. 또한 완전 감독 LIS 모델에 통합되어 성능을 향상시킬 수 있다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Peiang Zhao,... at arxiv.org 03-27-2024
https://arxiv.org/pdf/2311.12342.pdfDeeper Inquiries