본 논문에서는 사전 훈련된 텍스트-이미지 생성 모델을 특정 주제의 이미지를 생성하도록 미세 조정하는 새로운 방법인 보상 선호도 최적화(RPO)를 제안합니다. RPO는 λ-Harmonic 보상 함수를 사용하여 생성된 이미지의 품질을 평가하고, 선호도 기반 강화 학습을 통해 모델을 미세 조정합니다.
ReNO는 텍스트-이미지 생성 모델의 추론 시 초기 노이즈를 최적화하여 이미지 품질과 프롬프트 준수도를 향상시키는 새로운 접근 방식입니다.
본 논문에서는 인간 중심 텍스트-이미지 생성, 특히 손과 얼굴 부분의 자연스러움을 향상시키기 위해 MoLE(Mixture of Low-rank Experts)라는 새로운 방법을 제안합니다. MoLE는 고품질 인간 중심 데이터셋을 활용하여 사전 학습된 저랭크 모듈을 전문가로 활용하고, 이를 통해 손과 얼굴 부분을 효과적으로 개선합니다.
본 논문에서는 Diffusion Transformer (DiT) 기반 텍스트-이미지 생성 모델에서 정확한 객체 배치를 위한 새로운 공간적 기반화 기술인 GROUNDIT를 제안합니다. GROUNDIT는 DiT의 '의미 공유' 특성을 활용하여 각 바운딩 박스에 해당하는 노이즈 이미지 패치를 생성하고, 이를 원본 이미지에 이식하여 기존 방법보다 정밀한 공간 제어 능력을 달성합니다.
ITI-GEN과 같은 기존 프롬프트 학습 기반 공정 텍스트-이미지 생성 모델은 생성된 이미지의 품질 저하를 초래할 수 있으며, 본 논문에서는 이러한 문제를 해결하기 위해 프롬프트 큐잉 및 어텐션 증폭을 활용한 FairQueue라는 새로운 프레임워크를 제안합니다.
텍스트-이미지 생성에서 텍스트 설명과 생성된 이미지 간의 정렬 불일치 문제를 해결하기 위해 거친-세밀 의미 재정렬 방식을 사용하는 RealignDiff라는 새로운 2단계 접근 방식을 제시합니다.
본 논문에서는 텍스트-이미지 생성 모델의 구성성을 향상시키기 위해, 최소한의 시각적 차이를 가진 고품질의 대조 이미지 쌍으로 구성된 새로운 데이터셋인 CONPAIR와, 단일 객체-속성 구성 학습부터 복잡한 다중 객체 장면 처리까지 단계적으로 모델을 학습시키는 새로운 다단계 커리큘럼 학습 프레임워크인 EVOGEN을 제안합니다.
MagicTailor는 텍스트-이미지 변환 모델에서 이미지의 특정 구성 요소를 세밀하게 제어하여 개인화된 이미지를 생성할 수 있는 새로운 프레임워크입니다.
3DIS는 텍스트-이미지 생성에서 레이아웃과 속성을 모두 제어하여 여러 객체를 정확하게 배치하고 렌더링하는 새로운 프레임워크를 제시합니다.
긴 텍스트 입력을 사용한 이미지 생성에서 텍스트-이미지 정렬 문제를 해결하기 위해 텍스트 분할 인코딩 방법과 선호도 기반 보상 학습 방법을 결합한 LongAlign이라는 새로운 방법을 제시합니다.