이 논문은 비디오 순간 검색(VMR) 성능 향상을 위해 대규모 언어 모델(LLM) 인코더와 가상 이벤트 규제를 활용하는 방법을 제안한다.
LLM 인코더는 다중 모달 임베딩의 개념 간 관계를 정제할 수 있다. 이를 통해 시각적으로 두드러진 전경 개념(예: 사람, 얼굴)뿐만 아니라 배경 개념(예: 거리, 산)도 균형 있게 이해할 수 있다.
또한 이벤트 탐지 기술을 통해 식별된 가상 이벤트를 활용하여, 예측된 순간이 이벤트 경계 내에 위치하도록 유도함으로써 인접 순간의 방해 요소를 줄일 수 있다.
제안된 접근법은 기존 VMR 프레임워크에 쉽게 통합될 수 있는 플러그인 형태로 설계되었다. 실험 결과, 다양한 VMR 모델에 적용하여 성능 향상을 확인하였다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yiyang Jiang... lúc arxiv.org 09-17-2024
https://arxiv.org/pdf/2407.15051.pdfYêu cầu sâu hơn