활동-무음 및 지속적 활동 메커니즘에 영감을 받아, 우리는 비디오와 텍스트/오디오 쿼리 간의 의미 연관성을 효율적으로 학습하기 위해 통합 정적 및 동적 네트워크(UniSDNet)를 설계했습니다.
보조 캡션을 활용하여 비디오 그라운딩 성능을 크게 향상시킬 수 있다.