이 논문은 PI3D라는 새로운 프레임워크를 소개합니다. PI3D는 사전 학습된 텍스트-이미지 확산 모델의 지식을 활용하여 텍스트 프롬프트에서 고품질의 3D 형상을 빠르게 생성할 수 있습니다.
PI3D의 핵심 아이디어는 3D 형상을 가짜 RGB 이미지 집합으로 표현하는 것입니다. 이를 통해 기존의 2D 확산 모델 아키텍처를 활용할 수 있으며, 소량의 텍스트-3D 쌍 데이터로 미세 조정하여 의미 있고 일관된 3D 형상을 생성할 수 있습니다.
PI3D는 두 단계로 구성됩니다. 첫째, 가짜 이미지 확산 모델을 학습하여 빠르게 3D 형상을 샘플링할 수 있습니다. 둘째, 이를 초기값으로 하여 점수 증류 샘플링(SDS)을 통해 3D 형상의 품질을 향상시킵니다. 이 과정에서 2D 확산 모델의 지식을 활용하여 3D 일관성과 품질을 크게 개선할 수 있습니다.
실험 결과, PI3D는 기존 텍스트-3D 생성 모델에 비해 월등한 성능을 보였습니다. 3분 내에 고품질의 3D 형상을 생성할 수 있으며, 복잡한 텍스트 프롬프트에 대해서도 우수한 결과를 보였습니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Ying-Tian Li... alle arxiv.org 04-23-2024
https://arxiv.org/pdf/2312.09069.pdfDomande più approfondite