Główne pojęcia
다중 시점 이미지 확산 모델을 3D 객체 생성 및 편집에 적용하기 위해 3D 어댑터를 제안하였으며, 이를 통해 효율적이고 다양한 3D 작업을 수행할 수 있다.
Streszczenie
이 논문은 2D 이미지 확산 모델을 3D 객체 생성 및 편집에 활용하는 방법을 제안한다. 기존 2D 확산 모델을 그대로 사용하면 3D 일관성이 부족하므로, 저자들은 3D 어댑터를 도입하였다. 3D 어댑터는 다중 시점 2D 이미지를 3D 표현으로 융합하고, 이를 다음 단계의 2D 디노이징에 활용하여 3D 일관성을 유지한다. 이를 통해 텍스트 또는 이미지 기반의 3D 생성, 3D-3D 편집, 고품질 텍스처 합성 등 다양한 작업을 효율적으로 수행할 수 있다. 특히 이미지-3D, 텍스트 기반 텍스처 생성 작업에서 최신 기술 대비 우수한 성능을 보인다. 또한 2D 잠재 확산 모델을 소량의 3D 데이터로 빠르게 미세 조정하는 방법도 제안한다.
Statystyki
제안한 MVEdit 프레임워크를 이용한 3D 생성 및 편집 작업의 소요 시간은 2-5분 수준이다.
MVEdit은 기존 기술 대비 이미지-3D 생성 작업에서 LPIPS 0.139, CLIP 0.914, FID 29.3의 성능을 보였다.
MVEdit은 텍스트 기반 텍스처 생성 작업에서 Aesthetic 4.83, CLIP 26.12의 성능을 보였다.
Cytaty
"MVEdit은 SDEdit의 3D 버전으로, 사전 학습된 2D 이미지 확산 모델을 활용하여 3D 일관성을 유지하면서 고품질의 텍스처 메시를 생성할 수 있다."
"MVEdit은 텍스트/이미지-3D 생성, 3D-3D 편집, 고품질 텍스처 합성 등 다양한 작업에 활용될 수 있는 범용적인 프레임워크이다."