Core Concepts
본 연구는 3D-aware GAN과 확산 모델을 활용하여 입력 텍스트에 맞는 고품질 3D 초상화를 생성하는 방법을 제안한다.
Abstract
이 논문은 텍스트 기반 고품질 3D 초상화 생성을 위한 Portrait3D 프레임워크를 제안한다. 주요 내용은 다음과 같다:
-
3D-aware GAN 생성기인 3DPortraitGAN
을 개발하였다. 이 생성기는 피라미드 tri-grid 3D 표현을 사용하여 "격자 무늬" 아티팩트를 완화한다.
-
3DPortraitGAN
의 사전 정보를 활용하여 확산 모델 기반 텍스트-3D 초상화 생성 알고리즘을 제안하였다. 이를 통해 기하학적 정보와 외관 정보의 균형을 이루며 고품질 3D 초상화를 생성할 수 있다.
-
생성된 3D 초상화의 품질을 더욱 향상시키기 위해 확산 모델을 활용하여 렌더링된 이미지를 최적화하는 방법을 제안하였다.
실험 결과, Portrait3D는 기존 방법들에 비해 더 사실적이고 고품질의 3D 초상화를 생성할 수 있음을 보여준다.
Stats
"A boy, solo, male focus, black eyes, pink hair, wide shot, day, teen"
"A thin elderly woman in her mid-60s and platinum braided hair, wearing a suit with patterns that resemble jean-michel basquiat"
"A young girl supermodel, turtle red neck shirt, formal attire, long brown hair, great full 80s hair"
"A 28 y.o European man, bald, in pink and green dress wearing sunglasses, standing, looks away"
Quotes
"Existing neural rendering-based text-to-3D-portrait generation methods typically make use of human geometry prior and diffusion models to obtain guidance. However, relying solely on geometry information introduces issues such as the Janus problem, over-saturation, and over-smoothing."
"To accomplish this, we train a 3D portrait generator, 3DPortraitGAN
, as a robust prior. This generator is capable of producing 360◦canonical 3D portraits, serving as a starting point for the subsequent diffusion-based generation process."
"Following that, we utilize the diffusion model to refine the rendered images of the 3D portrait and then use these refined images as training data to further optimize the pyramid tri-grid, effectively eliminating issues with unrealistic color and unnatural artifacts."