텍스트 프롬프트를 입력으로 받아 2D 인페인팅 및 깊이 확산 모델을 활용하여 고품질의 3D 장면을 생성하는 기술을 제안한다.
Carve3D는 다중 뷰 이미지 생강 모델의 일관성을 향상시키기 위한 강화학습 미세조정 알고리즘이다. 이를 위해 다중 뷰 이미지와 해당 NeRF 렌더링 간의 일관성을 측정하는 새로운 메트릭인 MRC를 도입하였다.
DreamView는 전체 텍스트와 뷰 특정 텍스트를 적응적으로 활용하여 일관성 있고 맞춤형 3D 생성을 달성한다.
LATTE3D는 대규모 텍스트 프롬프트 세트에서 실시간으로 고품질의 3D 객체를 생성할 수 있는 효율적인 모델이다. 이를 위해 3D 데이터를 활용한 스케일러블 아키텍처와 강력한 3D 유도 기법을 사용한다.
Stein 항등식을 활용하여 텍스트에서 3D 점수 증류 과정의 분산을 효과적으로 감소시킬 수 있다.
기존 스코어 증류 기반 텍스트에서 3D 생성 기법은 각 뷰에 대한 최대 우도 추정으로 퇴화되어 모드 붕괴 문제에 취약하다. 이를 해결하기 위해 렌더링된 이미지 분포의 엔트로피 최대화를 통해 뷰 다양성을 높이는 Entropic Score Distillation (ESD) 기법을 제안한다.
DreamPolisher는 기하학적 확산을 통해 텍스트 기반 고품질 3D 객체를 생성하는 새로운 방법론이다.
본 연구는 2D 확산 모델에서 추출한 시각적 프롬프트를 활용하여 텍스트 기반 3D 생성 성능을 향상시킨다. 시각적 프롬프트는 3D 모델 학습 과정에서 텍스트 프롬프트와 함께 활용되어 더 사실적이고 상세한 3D 결과물을 생성할 수 있다.
DreamReward는 인간 선호도 피드백을 활용하여 텍스트 기반 3D 생성 모델의 성능을 크게 향상시킨다.
BrightDreamer는 텍스트 프롬프트에 대해 77ms 만에 3D 가우시안을 생성할 수 있는 일반적이고 효율적인 프레임워크를 제안한다.