Khái niệm cốt lõi
비디오 확산 모델을 활용하여 대규모 합성 다중 뷰 데이터셋을 생성하고, 이를 통해 단일 이미지에서 고품질 3D 자산을 생성할 수 있는 모델을 학습하였다.
Tóm tắt
이 논문은 비디오 확산 모델을 활용하여 확장 가능한 3D 생성 모델을 학습하는 새로운 패러다임을 제안한다. 3D 데이터의 부족은 3D 생성 모델 개발의 주요 장애물이다. 이를 해결하기 위해 저자들은 비디오 확산 모델을 3D 데이터 생성기로 활용한다. 비디오 확산 모델을 소량의 3D 데이터로 fine-tuning하여 다중 뷰 비디오 생성 기능을 unlock한다. 이를 통해 약 300만 개의 합성 다중 뷰 데이터셋을 생성하고, 이를 활용하여 단일 이미지에서 3D 자산을 생성하는 VFusion3D 모델을 학습한다. VFusion3D는 기존 SOTA 모델들에 비해 우수한 성능을 보이며, 사용자 선호도 또한 높다.
Thống kê
제안 모델 VFusion3D는 약 300만 개의 합성 다중 뷰 데이터셋을 활용하여 학습되었다.
모델 학습에는 100,000개의 3D 데이터가 사용되었다.
Trích dẫn
"The primary obstacle in developing foundation 3D generative models is the limited availability of 3D data."
"By unlocking its multi-view generative capabilities through fine-tuning, we generate a large-scale synthetic multi-view dataset to train a feed-forward 3D generative model."
"The proposed model, VFusion3D, trained on nearly 3M synthetic multi-view data, can generate a 3D asset from a single image in seconds and achieves superior performance when compared to current SOTA feed-forward 3D generative models, with users preferring our results over 70% of the time."