StoryMaker는 얼굴, 의상, 헤어스타일, 신체 등 캐릭터의 전반적인 일관성을 유지하면서도 배경, 자세, 스타일 등의 변화를 통해 이야기를 생성할 수 있는 텍스트 기반 이미지 생성 모델이다.
다중 맞춤형 개념을 정확하게 통합하여 시각적 충실도와 레이아웃 정확성을 보장하는 새로운 프레임워크를 제안한다.
본 연구는 텍스트 프롬프트에서 고품질의 일관된 360도 파노라마 이미지를 생성하기 위해 이중 브랜치 확산 모델 PanFusion을 제안한다. PanFusion은 안정 확산 모델의 풍부한 사전 지식을 활용하여 전체적인 레이아웃과 지역적인 세부 사항을 모두 고려한다.
텍스트 기반 이미지 생성 모델에서 객체 중심 에너지 기반 주의 맵 정렬 기법을 통해 부정확한 속성 결합과 객체 누락 문제를 해결한다.
λ-ECLIPSE는 CLIP 잠재 공간을 활용하여 리소스 효율적으로 단일 및 다중 주제 기반 텍스트 기반 이미지 생성을 수행할 수 있다.
본 연구는 확산 모델을 활용하여 장면의 공간적 배치와 외관을 자유롭게 조작할 수 있는 방법을 제안한다. 레이어드 장면 표현을 최적화하여 객체의 위치, 크기, 복제 등 다양한 편집 작업을 지원한다.
본 연구에서는 구조 일관성을 유지하면서도 효과적인 스타일 전이를 달성하기 위해 적응형 스타일 통합(ASI) 기법을 제안한다. ASI는 콘텐츠와 스타일 특징을 개별적으로 추출하고 구조 일관성 있게 통합하는 방식으로 작동한다.
SmartControl은 텍스트 프롬프트와 시각적 조건 간의 불일치 영역을 완화하여 사용자의 의도에 부합하는 사실적인 이미지를 생성합니다.
YaART는 강화학습을 통해 사용자 선호도에 맞춰 정제된 고품질의 텍스트 기반 이미지 생성 모델이다.
UniFL은 시각적 품질, 미적 선호도, 추론 속도를 종합적으로 향상시키는 통합 피드백 학습 프레임워크를 제안한다.