다중 시점 비디오 데이터로부터 강력하고 확장 가능한 시각적 표현을 학습하는 새로운 사전 학습 패러다임인 MIM4D를 제안한다. MIM4D는 공간적 및 시간적 관계를 모두 활용하여 마스크된 다중 시점 비디오 입력을 통해 학습한다.