본 논문은 텍스트 기반 개방형 3D 생성 모델인 TextField3D를 제안한다. 기존 방식들은 제한된 3D 데이터로 인해 특정 개념에 고착되는 문제가 있었다. 이를 해결하기 위해 본 논문에서는 Noisy Text Fields (NTFs)를 도입하여 3D 데이터와 방대한 언어-비전 사전 지식을 효과적으로 매핑한다.
구체적으로, NTFGen 모듈을 통해 노이즈가 주입된 텍스트 잠재 코드를 생성하고, NTFBind 모듈을 통해 이미지 특징을 NTFs에 정렬시킨다. 또한 텍스트-3D 및 텍스트-2.5D 판별기를 활용한 다중 모달 판별 기법을 제안하여 생성 과정을 효과적으로 감독한다.
실험 결과, TextField3D는 기존 방식들에 비해 개방형 3D 생성 능력, 텍스트 일관성, 낮은 지연 시간 등의 장점을 보인다. 다양한 카테고리와 복잡한 텍스트 프롬프트에 대해 효과적인 생성 결과를 보여주며, 제안된 모듈들의 유효성을 입증한다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Tianyu Huang... um arxiv.org 03-15-2024
https://arxiv.org/pdf/2309.17175.pdfTiefere Fragen