核心概念
WoVoGen은 명시적인 4D 세계 볼륨을 활용하여 다중 카메라 주행 장면 비디오를 생성하며, 이를 통해 장면 내 일관성과 센서 간 일관성을 보장합니다.
要約
이 논문은 다중 카메라 주행 장면 비디오 생성을 위한 WoVoGen 프레임워크를 소개합니다. WoVoGen은 두 단계로 작동합니다:
- 참조 장면과 미래 차량 제어 시퀀스를 사용하여 4D 세계 볼륨을 예측합니다.
- 이 예측된 세계 볼륨을 활용하여 다중 카메라 비디오를 생성합니다.
4D 세계 볼륨은 시간, 높이, 길이, 폭의 4차원으로 구성되며, 객체 점유, 고해상도 지도, 배경 정보, 도로 속성 등 장면에 대한 포괄적인 데이터를 포함합니다. 이를 통해 WoVoGen은 장면 내 일관성과 센서 간 일관성을 보장하며, 차량 제어 입력에 따른 고품질 주행 장면 비디오를 생성할 수 있습니다. 또한 장면 편집 작업도 가능합니다.
統計
차량의 속도와 조향각은 Fourier 임베딩을 통해 토큰화되어 모델에 입력됩니다.
세계 볼륨은 Z x H x W x C 크기의 3D 텐서로 표현되며, 여기서 Z, H, W는 각각 시간, 높이, 너비이고 C는 채널 수입니다.
세계 볼륨은 객체 점유 정보(Cocc 클래스)와 고해상도 지도 정보(Cmap = 3 채널)로 구성됩니다.
引用
"WoVoGen은 명시적인 4D 세계 볼륨을 활용하여 다중 카메라 주행 장면 비디오를 생성하며, 이를 통해 장면 내 일관성과 센서 간 일관성을 보장합니다."
"WoVoGen은 두 단계로 작동합니다: 1) 참조 장면과 미래 차량 제어 시퀀스를 사용하여 4D 세계 볼륨을 예측하고, 2) 이 예측된 세계 볼륨을 활용하여 다중 카메라 비디오를 생성합니다."