Core Concepts
본 연구는 사전 학습된 다중 뷰 확산 모델을 활용하여 복잡한 텍스트 프롬프트를 정확하게 따르면서도 다양한 3D 모델을 생성하는 효과적인 2단계 접근법을 제안한다.
Abstract
본 논문은 텍스트에서 3D 모델을 생성하는 새로운 2단계 프레임워크를 소개한다. 첫 번째 단계에서는 다중 뷰 확산 모델을 활용하여 텍스트 프롬프트에 맞는 정확한 4개의 뷰 이미지를 생성한다. 이때 주목 집중 메커니즘을 도입하여 각 구성 요소가 모든 뷰에 정확히 표현되도록 한다. 두 번째 단계에서는 이 4개의 뷰 이미지와 사전 학습된 다중 뷰 확산 모델의 텍스트 유도 확산 프라이어를 결합하여 고품질의 3D 모델을 생성한다. 이 과정에서 희소 뷰 NeRF와 점진적인 SDS 손실 최적화를 통해 구성적 정확성과 세부 사항을 모두 보존한다. 실험 결과, 제안 방법은 기존 최신 기법들에 비해 구성적 정확성과 다양성, 그리고 품질 면에서 크게 향상된 성능을 보여준다.
Stats
"a crocodile playing a drum set"에 대한 4개 뷰 이미지 생성
"A girl is reading a hardcover book in her room"에 대한 4개 뷰 이미지 생성
"a green cactus in a hexagonal cup on a star-shaped tray"에 대한 4개 뷰 이미지 생성