이 논문은 텍스트-3D 생성을 위한 효율적인 최적화 기법인 DreamFlow를 제안한다. 기존의 접근법인 Score Distillation Sampling (SDS)은 확산 모델의 학습 목적함수를 활용하지만, 이로 인해 높은 분산의 gradient가 발생하여 최적화 과정이 길어지는 문제가 있다.
DreamFlow는 이를 해결하기 위해 확산 모델의 생성 과정을 모방하는 접근법을 취한다. 구체적으로, 텍스트-3D 최적화를 다중 뷰 이미지-이미지 변환 문제로 정의하고, 슈뢰딩거 브리지 문제를 통해 확률 흐름 ODE를 유도한다. 이를 통해 사전 학습된 텍스트-이미지 확산 모델의 생성 과정을 효과적으로 활용할 수 있다. 또한 확률 흐름 ODE를 근사하여 다중 뷰 이미지를 최적화하는 APFO 알고리즘을 제안한다.
이를 바탕으로 DreamFlow라는 실용적인 텍스트-3D 생성 프레임워크를 소개한다. DreamFlow는 coarse-to-fine 방식으로 NeRF 생성, 3D 메시 추출 및 fine-tuning, 고해상도 확산 모델을 활용한 메시 정제 등의 단계로 구성된다. 실험 결과, DreamFlow는 기존 방법 대비 5배 빠른 생성 속도와 더 사실적인 3D 콘텐츠를 생성할 수 있음을 보여준다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문