Core Concepts
랜니는 기존 확산 모델의 텍스트 제어 능력을 향상시키기 위해 중간 단계로 시맨틱 패널을 도입합니다. 시맨틱 패널은 텍스트 설명을 시각적 개념으로 변환하여 이미지 생성을 안내합니다. 또한 시맨틱 패널을 직접 조작하여 생성된 이미지를 편집할 수 있는 기능을 제공합니다.
Abstract
랜니는 텍스트-이미지 생성 모델의 정확성을 높이기 위해 시맨틱 패널이라는 중간 단계를 도입했습니다.
텍스트-패널 단계에서는 대형 언어 모델(LLM)을 활용하여 텍스트 설명을 시각적 개념으로 변환합니다. 이때 각 개념은 텍스트 설명, 경계 상자, 색상, 키포인트 등의 속성으로 표현됩니다.
패널-이미지 단계에서는 생성 확산 모델을 활용하여 시맨틱 패널을 기반으로 이미지를 생성합니다. 시맨틱 패널의 각 개념 정보를 인코딩하여 생성 과정을 안내합니다.
이를 통해 랜니는 기존 텍스트-이미지 모델에 비해 수량, 공간 관계, 속성 결합 등 복잡한 지시를 더 잘 따를 수 있습니다. 또한 시맨틱 패널을 직접 조작하여 생성된 이미지를 편집할 수 있는 기능을 제공합니다. 이는 사용자가 보다 직관적이고 세밀한 방식으로 이미지를 생성하고 수정할 수 있게 해줍니다.
Stats
"이 모델은 기존 텍스트-이미지 모델에 비해 수량 인식 능력이 향상되었습니다."
"이 모델은 공간 관계 표현 능력이 뛰어납니다."
"이 모델은 속성 결합 표현 능력이 우수합니다."
Quotes
"랜니는 텍스트 설명을 시각적 개념으로 변환하여 이미지 생성을 안내합니다."
"랜니는 시맨틱 패널을 직접 조작하여 생성된 이미지를 편집할 수 있는 기능을 제공합니다."
"랜니를 통해 사용자는 보다 직관적이고 세밀한 방식으로 이미지를 생성하고 수정할 수 있습니다."