본 논문에서는 이미지를 통합하여 의미론적 쿼리를 보다 유연하게 표현하는 멀티모달 쿼리(MQ)를 사용하여 비디오에서 이벤트를 지역화하는 새로운 작업과 벤치마크(ICQ)를 제안하며, 기존 비디오 지역화 모델을 새로운 작업에 적용하기 위한 방법들을 제시하고, 다양한 스타일의 참조 이미지와 개선 텍스트를 사용하여 모델 성능을 평가합니다.