Core Concepts
Isotropic3D는 단일 CLIP 임베딩만을 입력으로 받아 다중 뷰 일관성 있는 고품질 3D 모델을 생성할 수 있는 새로운 이미지-3D 생성 파이프라인이다.
Abstract
Isotropic3D는 단일 CLIP 임베딩만을 입력으로 받아 고품질의 3D 모델을 생성하는 새로운 이미지-3D 생성 파이프라인이다.
첫 번째 단계에서는 텍스트-이미지 확산 모델을 이미지-이미지 모델로 미세 조정한다. 이를 통해 모델이 이미지-이미지 기능을 예비적으로 습득한다.
두 번째 단계에서는 명시적 다중 뷰 주의 메커니즘(EMA)을 사용하여 모델을 추가로 미세 조정한다. EMA는 잡음이 있는 다중 뷰 이미지와 잡음이 없는 참조 이미지를 명시적 조건으로 결합한다. 이를 통해 참조 이미지를 전체 네트워크에서 폐기할 수 있다.
실험 결과, Isotropic3D는 단일 CLIP 임베딩만으로도 참조 이미지와의 유사성을 유지하면서 다중 뷰 일관성 있는 이미지와 더 균형 잡힌 기하학, 풍부한 색상 텍스처, 왜곡이 적은 3D 모델을 생성할 수 있음을 보여준다.
Stats
참조 이미지와 일관성 있는 다중 뷰 이미지를 생성할 수 있다.
균형 잡힌 기하학, 풍부한 색상 텍스처, 왜곡이 적은 3D 모델을 생성할 수 있다.
단일 CLIP 임베딩만으로도 이러한 성능을 달성할 수 있다.