핵심 개념
제한된 3D 데이터를 활용하여 텍스트 개념의 동적 범위를 모델링함으로써 개방형 3D 생성 능력을 향상시킬 수 있다.
초록
본 논문은 텍스트 기반 개방형 3D 생성 모델인 TextField3D를 제안한다. 기존 방식들은 제한된 3D 데이터로 인해 특정 개념에 고착되는 문제가 있었다. 이를 해결하기 위해 본 논문에서는 Noisy Text Fields (NTFs)를 도입하여 3D 데이터와 방대한 언어-비전 사전 지식을 효과적으로 매핑한다.
구체적으로, NTFGen 모듈을 통해 노이즈가 주입된 텍스트 잠재 코드를 생성하고, NTFBind 모듈을 통해 이미지 특징을 NTFs에 정렬시킨다. 또한 텍스트-3D 및 텍스트-2.5D 판별기를 활용한 다중 모달 판별 기법을 제안하여 생성 과정을 효과적으로 감독한다.
실험 결과, TextField3D는 기존 방식들에 비해 개방형 3D 생성 능력, 텍스트 일관성, 낮은 지연 시간 등의 장점을 보인다. 다양한 카테고리와 복잡한 텍스트 프롬프트에 대해 효과적인 생성 결과를 보여주며, 제안된 모듈들의 유효성을 입증한다.
통계
제한된 3D 데이터로 인해 특정 개념에 고착되는 문제가 있었다.
기존 방식들은 수백만 개의 텍스트-3D 쌍을 수집했지만, 이는 언어-비전 데이터 규모에 비해 여전히 작다.
본 논문에서는 약 175,000개의 3D 데이터를 활용하여 개방형 3D 생성 능력을 향상시켰다.
인용구
"With limited data, can we train a real-time 3D generator with the potential towards open-vocabulary content creation?"
"To tackle this issue, we intend to expand the expression range of 3D latent space."
"Noisy Text Fields (NTFs) to 3D latent code, enhancing the mapping of V-L pre-trained knowledge and 3D training data."