본 논문에서는 텍스트 설명을 바탕으로 사실적인 패션 의상 스케치를 생성하는 데 특화된 새로운 데이터셋인 FLORA와, 기존 LoRA 어댑터보다 우수한 성능을 보이는 새로운 모델 아키텍처인 KAN 어댑터를 제안합니다.
본 논문에서는 텍스트-포즈 생성 모델과 새로운 포즈 어댑터를 활용하여 텍스트-이미지 확산 모델에서 인간 포즈 제어 능력을 향상시키는 텍스트-포즈-이미지 생성 프레임워크를 제안합니다.
This paper introduces a novel text-to-pose-to-image framework that enhances the controllability and quality of human poses in images generated by text-to-image diffusion models.
TIPO enhances text-to-image generation quality by optimizing user prompts to better align with the training dataset distribution, leading to more relevant, diverse, and coherent images.
RAG, a novel region-aware text-to-image generation framework, enhances diffusion models by enabling precise control over object placement, attributes, and relationships within complex compositions.
텍스트-이미지 생성 모델 학습에서 캡션의 정밀도가 재현율보다 이미지 생성 성능에 더 큰 영향을 미치며, Large Vision Language Models (LVLM)을 활용하여 생성한 합성 캡션도 인간의 주석과 유사한 경향을 보인다.
Prioritizing precision over recall in image captions, whether human-annotated or synthetically generated, leads to better performance in training text-to-image generation models, particularly in terms of compositional capabilities.
This research paper introduces RPO, a novel approach for subject-driven text-to-image generation that leverages a λ-Harmonic reward function and preference-based reinforcement learning to efficiently fine-tune diffusion models, achieving state-of-the-art results in generating images faithful to both reference images and textual prompts.
ReNO is a novel approach that significantly improves the quality and prompt adherence of one-step text-to-image synthesis models by optimizing the initial latent noise vector based on feedback from multiple human preference reward models.
본 논문에서는 텍스트-투-이미지 기반 모델에 어댑터를 삽입하여 기본 모델의 일반화 능력을 유지하면서 복잡한 다운스트림 작업을 수행할 수 있는 효과적인 방법을 제안합니다.