이 논문은 텍스트 기반 이미지 생성 및 편집을 위한 새로운 훈련 없는 프레임워크인 Recaption, Plan and Generate (RPG)를 제안한다. RPG는 다음과 같은 3가지 핵심 전략을 사용한다:
멀티모달 재캡셔닝: LLM을 사용하여 텍스트 프롬프트를 정보가 풍부한 프롬프트로 변환하여 생성된 이미지와 프롬프트 간의 의미적 정렬을 향상시킨다.
체인 사고 계획: LLM의 강력한 체인 사고 추론 능력을 활용하여 이미지 공간을 보완적인 하위 영역으로 분할하고 각 하위 영역에 서로 다른 하위 프롬프트를 할당한다.
보완적 지역 확산: 계획된 비중첩 하위 영역과 해당 프롬프트를 기반으로 독립적으로 이미지 콘텐츠를 생성하고 이를 공간적으로 병합하여 구성적 텍스트 기반 이미지 생성을 향상시킨다.
RPG는 텍스트 기반 이미지 생성과 편집 작업을 통합하는 폐쇄 루프 접근 방식을 제공하며, 다양한 MLLM 아키텍처와 확산 백본과 호환된다. 광범위한 실험에서 RPG는 SDXL, DALL-E 3 등 최신 기술을 능가하는 성능을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ling Yang,Zh... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2401.11708.pdfDeeper Inquiries