이 논문은 텍스트 기반 3D 생성을 위한 새로운 프레임워크인 Instant3D를 제안한다. 기존 방법들은 각 텍스트 프롬프트에 대해 새로운 NeRF를 최적화해야 하므로 비효율적이다. 이에 반해 Instant3D는 단일 피드포워드 신경망을 학습하여 새로운 텍스트 프롬프트에 대해 3D 객체를 빠르게 생성할 수 있다.
Instant3D의 핵심 혁신은 텍스트 정보를 효과적으로 주입하는 세 가지 메커니즘을 융합하는 것이다: 크로스 어텐션, 스타일 주입, 토큰-평면 변환. 이를 통해 텍스트와 3D 출력 간의 정확한 정렬을 보장한다. 또한 훈련 수렴 속도를 10배 이상 높이는 새로운 활성화 함수인 scaled-sigmoid를 제안한다. 마지막으로 Janus 문제를 해결하기 위해 적응형 Perp-Neg 알고리즘을 개발했다.
광범위한 벤치마크 데이터셋에 대한 실험 결과, Instant3D는 기존 최신 방법들보다 질적, 양적으로 우수한 성능을 보이며 훨씬 더 효율적이다. 특히 Daily Life 데이터셋에서 복잡하고 다양한 실세계 텍스트 프롬프트에 대해 정확한 3D 생성 결과를 보여준다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Ming Li,Pan ... klo arxiv.org 04-30-2024
https://arxiv.org/pdf/2311.08403.pdfSyvällisempiä Kysymyksiä