이 논문은 비디오 순간 검색(VMR) 성능 향상을 위해 대규모 언어 모델(LLM) 인코더와 가상 이벤트 규제를 활용하는 방법을 제안한다.
LLM 인코더는 다중 모달 임베딩의 개념 간 관계를 정제할 수 있다. 이를 통해 시각적으로 두드러진 전경 개념(예: 사람, 얼굴)뿐만 아니라 배경 개념(예: 거리, 산)도 균형 있게 이해할 수 있다.
또한 이벤트 탐지 기술을 통해 식별된 가상 이벤트를 활용하여, 예측된 순간이 이벤트 경계 내에 위치하도록 유도함으로써 인접 순간의 방해 요소를 줄일 수 있다.
제안된 접근법은 기존 VMR 프레임워크에 쉽게 통합될 수 있는 플러그인 형태로 설계되었다. 실험 결과, 다양한 VMR 모델에 적용하여 성능 향상을 확인하였다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Yiyang Jiang... klo arxiv.org 09-17-2024
https://arxiv.org/pdf/2407.15051.pdfSyvällisempiä Kysymyksiä