이 논문은 텍스트 기반 3D 생성을 위한 새로운 프레임워크인 Instant3D를 제안한다. 기존 방법들은 각 텍스트 프롬프트에 대해 새로운 NeRF를 최적화해야 하므로 비효율적이다. 이에 반해 Instant3D는 단일 피드포워드 신경망을 학습하여 새로운 텍스트 프롬프트에 대해 3D 객체를 빠르게 생성할 수 있다.
Instant3D의 핵심 혁신은 텍스트 정보를 효과적으로 주입하는 세 가지 메커니즘을 융합하는 것이다: 크로스 어텐션, 스타일 주입, 토큰-평면 변환. 이를 통해 텍스트와 3D 출력 간의 정확한 정렬을 보장한다. 또한 훈련 수렴 속도를 10배 이상 높이는 새로운 활성화 함수인 scaled-sigmoid를 제안한다. 마지막으로 Janus 문제를 해결하기 위해 적응형 Perp-Neg 알고리즘을 개발했다.
광범위한 벤치마크 데이터셋에 대한 실험 결과, Instant3D는 기존 최신 방법들보다 질적, 양적으로 우수한 성능을 보이며 훨씬 더 효율적이다. 특히 Daily Life 데이터셋에서 복잡하고 다양한 실세계 텍스트 프롬프트에 대해 정확한 3D 생성 결과를 보여준다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Ming Li,Pan ... alle arxiv.org 04-30-2024
https://arxiv.org/pdf/2311.08403.pdfDomande più approfondite