본 연구는 기존 폐쇄형 비디오 그라운딩 방법론의 한계를 극복하고자 개방형 어휘 시공간 비디오 그라운딩 과제를 제안한다. 공간 그라운딩 모델의 사전 학습된 표현을 활용하여 언어와 시각 개념 간의 의미적 격차를 효과적으로 해소하고, 폐쇄형 및 개방형 설정 모두에서 우수한 성능을 달성한다.