Основні поняття
다중 시점 확산 모델은 주어진 텍스트 프롬프트에 대해 일관된 다중 시점 이미지를 생성할 수 있다. 2D 및 3D 데이터를 학습하여 2D 확산 모델의 일반화 능력과 3D 렌더링의 일관성을 모두 달성할 수 있다.
Анотація
이 논문에서는 다중 시점 확산 모델(MVDream)을 제안한다. 이 모델은 주어진 텍스트 프롬프트에 대해 일관된 다중 시점 이미지를 생성할 수 있다.
모델 구조:
- 기존 2D 텍스트-이미지 UNet 구조를 사용하되, 2D 자기 주의 메커니즘을 3D로 확장하여 다른 시점 간 연결성을 모델링한다.
- 카메라 매개변수 임베딩을 추가하여 시점 정보를 입력으로 활용한다.
학습 데이터:
- 3D 렌더링 데이터와 2D 텍스트-이미지 데이터를 함께 사용하여 학습한다.
- 3D 데이터만으로 학습할 경우 이미지 품질이 저하되므로, LAION 데이터셋 등의 2D 데이터를 추가로 활용한다.
응용:
- 3D 생성: 다중 시점 확산 모델을 3D 생성을 위한 사전 지식으로 활용할 수 있다. 기존 2D-lifting 방식보다 일관성과 안정성이 크게 향상된다.
- 개인화된 3D 생성: 다중 시점 확산 모델을 DreamBooth 방식으로 fine-tuning하여 개인화된 3D 모델을 생성할 수 있다.
Статистика
"A bald eagle carved out of wood"에 대한 데이터:
다양한 각도에서 일관성 있게 생성된 3D 모델은 기존 2D-lifting 방식에 비해 훨씬 더 안정적이고 세부적인 모습을 보인다.
기존 이미지-3D 변환 방식에 비해, 제안 모델은 복잡한 자세와 각도에서도 더 정확한 3D 모델을 생성할 수 있다.