이 논문은 텍스트-이미지 생성 모델의 한계를 해결하기 위해 훈련 없이 실시간으로 레이아웃을 보정하는 SimM 시스템을 제안한다.
먼저 입력 텍스트에서 레이아웃 요구사항을 파악하고, 중간 출력 이미지와 비교하여 레이아웃 불일치를 감지한다. 그 후 활성화 맵을 분석하여 위치가 잘못된 객체를 찾아내고, 이를 목표 위치로 이동시키는 등의 방식으로 레이아웃을 보정한다.
이를 통해 기존 모델의 한계를 극복하고 텍스트 레이아웃 요구사항을 정확하게 반영할 수 있다. 또한 추가 학습 없이 실시간으로 보정이 가능하여 효율적이다.
논문에서는 기존 데이터셋의 한계를 보완한 SimMBench 벤치마크를 제안하고, 정량적/정성적 실험을 통해 SimM의 우수성을 입증한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Biao Gong,Si... at arxiv.org 03-26-2024
https://arxiv.org/pdf/2311.15773.pdfDeeper Inquiries