텍스트 중심 디자인과 시각적 조화 생성에 초점을 맞춘 동적 공간 영역 적응을 통해 효과적인 텍스트 배치를 위한 이미지를 생성합니다.
텍스트-이미지 생성 모델의 출력물에 존재하는 인공물, 부정합, 낮은 미적 품질 등의 문제를 해결하기 위해 풍부한 인간 피드백 데이터셋을 수집하고 이를 활용하여 자동으로 피드백을 예측하는 모델을 개발하였다.
랜니는 기존 확산 모델의 텍스트 제어 능력을 향상시키기 위해 중간 단계로 시맨틱 패널을 도입합니다. 시맨틱 패널은 텍스트 설명을 시각적 개념으로 변환하여 이미지 생성을 안내합니다. 또한 시맨틱 패널을 직접 조작하여 생성된 이미지를 편집할 수 있는 기능을 제공합니다.
NeuroPrompts는 사용자가 제공한 프롬프트를 자동으로 최적화하여 텍스트-이미지 생성 모델의 이미지 품질을 향상시킵니다.
MC2는 다양한 단일 개념 맞춤형 모델을 통합하여 여러 맞춤형 개념의 자연스러운 조합을 생성할 수 있습니다. 추가 학습 없이도 유연성과 충실도가 향상된 다중 개념 맞춤형 생성이 가능합니다.
텍스트 프롬프트와 정확하게 일치하는 이미지를 생성하는 것은 여전히 큰 과제이다. 이 연구는 초기 노이즈의 유효성이 이 문제의 근본 원인이라고 밝히고, 초기 노이즈 최적화(INITNO) 기법을 제안한다. INITNO는 초기 잠재 공간을 유효 및 무효 영역으로 분할하고, 노이즈를 유효 영역으로 안내하는 최적화 파이프라인을 개발한다.
다중 주제 개인화를 위해 세그먼트 마스크를 활용하여 주체 간 아이덴티티를 효과적으로 분리할 수 있다.
보상 기반 강화학습을 통해 일관성 모델을 최적화하여 빠른 생성 속도와 높은 품질의 이미지를 생성할 수 있다.
AI 기반 피드백 데이터를 활용하여 텍스트-이미지 생성 모델의 충실도와 미적 품질을 향상시킬 수 있다.
텍스트 프롬프트와 생성된 이미지 간의 정렬을 향상시키기 위해 이미지-텍스트 개념 매칭 메커니즘을 활용하는 CoMat 기술을 제안한다.