본 논문은 비디오 확산 모델과 다중 뷰 확산 모델을 결합하여 고효율의 병렬 프로세스로 다중 뷰 및 다중 프레임 이미지 어레이를 직접 생성하고, 이를 활용해 연속적인 4D 표현을 최적화하는 새로운 프레임워크를 제안한다.
4DGen은 모노크롬 비디오 시퀀스를 활용하여 동적 3D 콘텐츠를 생성하는 새로운 프레임워크를 제안합니다. 이를 통해 사용자가 콘텐츠의 외형과 동작을 정밀하게 제어할 수 있습니다.