랜니는 텍스트-이미지 생성 모델의 정확성을 높이기 위해 시맨틱 패널이라는 중간 단계를 도입했습니다.
텍스트-패널 단계에서는 대형 언어 모델(LLM)을 활용하여 텍스트 설명을 시각적 개념으로 변환합니다. 이때 각 개념은 텍스트 설명, 경계 상자, 색상, 키포인트 등의 속성으로 표현됩니다.
패널-이미지 단계에서는 생성 확산 모델을 활용하여 시맨틱 패널을 기반으로 이미지를 생성합니다. 시맨틱 패널의 각 개념 정보를 인코딩하여 생성 과정을 안내합니다.
이를 통해 랜니는 기존 텍스트-이미지 모델에 비해 수량, 공간 관계, 속성 결합 등 복잡한 지시를 더 잘 따를 수 있습니다. 또한 시맨틱 패널을 직접 조작하여 생성된 이미지를 편집할 수 있는 기능을 제공합니다. 이는 사용자가 보다 직관적이고 세밀한 방식으로 이미지를 생성하고 수정할 수 있게 해줍니다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Yutong Feng,... klokken arxiv.org 04-10-2024
https://arxiv.org/pdf/2311.17002.pdfDypere Spørsmål