Core Concepts
DreamScene4D는 단일 카메라 동영상에서 다중 객체 동적 장면을 생성할 수 있는 첫 번째 접근 방식이다. 이를 위해 장면을 분해하고 재구성하는 전략을 사용하여 객체와 배경의 3D 움직임을 모델링한다.
Abstract
DreamScene4D는 단일 카메라 동영상에서 다중 객체 동적 장면을 생성할 수 있는 첫 번째 접근 방식이다. 이를 위해 다음과 같은 단계를 거친다:
객체 추적 및 분할: 동영상에서 객체와 배경을 추적하고 분할한다. 폐색이 발생하는 경우 확산 모델을 사용하여 객체와 배경을 시간적으로 보완한다.
3D 객체 생성: 각 객체와 배경을 3D 가우시안으로 표현하고 이를 최적화한다. 이때 움직임을 3가지 요소(객체 중심 변형, 전역 이동, 카메라 움직임)로 분해하여 최적화 과정을 안정화한다.
장면 재구성: 예측된 깊이 정보를 활용하여 개별적으로 최적화된 객체들을 하나의 통합된 3D 좌표계에 배치한다.
이를 통해 DreamScene4D는 기존 접근 방식에 비해 복잡한 다중 객체 동영상에서도 일관되고 사실적인 4D 장면을 생성할 수 있다. 또한 생성된 3D 객체 움직임을 2D 영상에 투영하여 정확한 점 추적을 수행할 수 있다.
Stats
단일 카메라 동영상에서 다중 객체의 빠른 움직임을 포함하는 복잡한 장면을 생성할 수 있다.
기존 접근 방식에 비해 DAVIS와 Kubric 데이터셋에서 CLIP 점수와 LPIPS 점수가 향상되었다.
DAVIS와 Kubric 데이터셋에서 기존 접근 방식 대비 2D 점 추적 오차가 크게 감소했다.
Quotes
"DreamScene4D는 단일 카메라 동영상에서 다중 객체 동적 장면을 생성할 수 있는 첫 번째 접근 방식이다."
"DreamScene4D는 장면을 분해하고 재구성하는 전략을 사용하여 객체와 배경의 3D 움직임을 모델링한다."