核心概念
다중 시점 비디오 데이터로부터 강력하고 확장 가능한 시각적 표현을 학습하는 새로운 사전 학습 패러다임인 MIM4D를 제안한다. MIM4D는 공간적 및 시간적 관계를 모두 활용하여 마스크된 다중 시점 비디오 입력을 통해 학습한다.
要約
이 논문은 자율주행을 위한 강력하고 확장 가능한 시각적 표현 학습 방법인 MIM4D를 제안한다. 기존의 사전 학습 방법들은 3D 주석이 필요한 감독 학습에 의존하거나 단일 프레임 또는 단안 입력에 초점을 맞추어 시간 정보를 간과하는 문제가 있었다.
MIM4D는 공간적 및 시간적 관계를 모두 활용하는 새로운 사전 학습 패러다임이다. 구체적으로 다음과 같은 특징을 가진다:
- 연속적인 장면 흐름을 활용하여 드롭된 voxel 특징을 구성함으로써 시간 정보를 모델링한다.
- 3D 볼륨 기반 차등 가능한 렌더링을 통해 2D 평면에 voxel 특징을 투영하고 감독 신호를 제공한다. 이를 통해 비싼 3D 주석 없이도 기하학적 표현을 학습할 수 있다.
실험 결과, MIM4D는 nuScenes 데이터셋에서 기존 감독 및 비감독 표현 학습 방법을 능가하는 성능을 보였다. 또한 다양한 하위 작업에서도 큰 성능 향상을 달성했다. 이는 MIM4D가 자율주행을 위한 효과적이고 범용적인 표현 학습 방법임을 보여준다.
統計
다중 시점 비디오 데이터에는 엄청난 양의 레이블되지 않은 데이터가 존재한다.
기존 방법들은 3D 주석이 필요한 감독 학습에 의존하거나 단일 프레임 또는 단안 입력에 초점을 맞추어 시간 정보를 간과하는 문제가 있었다.
引用
"Learning robust and scalable visual representations from massive multi-view video data remains a challenge in computer vision and autonomous driving."
"Existing pre-training methods either rely on expensive supervised learning with 3D annotations, limiting the scalability, or focus on single-frame or monocular inputs, neglecting the temporal information."