StoryMaker는 얼굴 인식 모델과 이미지 인코더를 사용하여 참조 이미지에서 캐릭터의 얼굴 정보와 의상, 헤어스타일, 신체 정보를 추출한다. 이를 Positional-aware Perceiver Resampler 모듈을 통해 정제하여 캐릭터 임베딩을 생성한다.
이 임베딩을 디퓨전 모델의 디커플드 크로스 어텐션 모듈에 주입하여 이미지를 생성한다. 캐릭터 간 및 배경과의 혼재를 방지하기 위해 세그멘테이션 마스크를 활용한 어텐션 손실을 적용한다. 또한 ControlNet을 통해 자세 정보를 분리하여 다양한 자세의 캐릭터를 생성할 수 있도록 한다. LoRA를 통해 생성 이미지의 충실도와 품질을 향상시킨다.
이를 통해 StoryMaker는 얼굴, 의상, 헤어스타일, 신체 등 캐릭터의 전반적인 일관성을 유지하면서도 배경, 자세, 스타일 등의 변화를 통해 이야기를 생성할 수 있다. 다양한 응용 분야에 활용될 수 있다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Zhengguang Z... klokken arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12576.pdfDypere Spørsmål