核心概念
사전 학습된 텍스트-이미지 생성 모델의 한계를 극복하고 텍스트 레이아웃 요구사항을 정확하게 반영하기 위해 훈련 없이 실시간으로 레이아웃을 보정하는 시스템을 제안한다.
摘要
이 논문은 텍스트-이미지 생성 모델의 한계를 해결하기 위해 훈련 없이 실시간으로 레이아웃을 보정하는 SimM 시스템을 제안한다.
먼저 입력 텍스트에서 레이아웃 요구사항을 파악하고, 중간 출력 이미지와 비교하여 레이아웃 불일치를 감지한다. 그 후 활성화 맵을 분석하여 위치가 잘못된 객체를 찾아내고, 이를 목표 위치로 이동시키는 등의 방식으로 레이아웃을 보정한다.
이를 통해 기존 모델의 한계를 극복하고 텍스트 레이아웃 요구사항을 정확하게 반영할 수 있다. 또한 추가 학습 없이 실시간으로 보정이 가능하여 효율적이다.
논문에서는 기존 데이터셋의 한계를 보완한 SimMBench 벤치마크를 제안하고, 정량적/정성적 실험을 통해 SimM의 우수성을 입증한다.
統計資料
텍스트 프롬프트에 명시된 레이아웃 요구사항을 정확하게 이해하고 합성하는 것이 어려운 과제이다.
기존 모델의 한계는 학습 데이터의 편향성, 상대적/절대적 공간 관계 이해의 어려움 등에 기인한다.
레이아웃 보정을 위해서는 추가 학습이 필요하지만, 이는 계산 비용이 높고 모델 업데이트에 따른 문제가 있다.
引述
"Diffusion models have recently achieved remarkable progress in generating realistic images. However, challenges remain in accurately understanding and synthesizing the layout requirements in the textual prompts."
"To align the generated image with layout instructions, we present a training-free layout calibration system SimM that intervenes in the generative process on the fly during inference time."