Kernekoncepter
LLM 인코딩을 통해 개념 간 관계를 정제하고, 가상 이벤트 규제를 통해 예측된 순간이 이벤트 경계 내에 위치하도록 하여 비디오 순간 검색 성능을 향상시킨다.
Resumé
이 논문은 비디오 순간 검색(VMR) 성능 향상을 위해 대규모 언어 모델(LLM) 인코더와 가상 이벤트 규제를 활용하는 방법을 제안한다.
LLM 인코더는 다중 모달 임베딩의 개념 간 관계를 정제할 수 있다. 이를 통해 시각적으로 두드러진 전경 개념(예: 사람, 얼굴)뿐만 아니라 배경 개념(예: 거리, 산)도 균형 있게 이해할 수 있다.
또한 이벤트 탐지 기술을 통해 식별된 가상 이벤트를 활용하여, 예측된 순간이 이벤트 경계 내에 위치하도록 유도함으로써 인접 순간의 방해 요소를 줄일 수 있다.
제안된 접근법은 기존 VMR 프레임워크에 쉽게 통합될 수 있는 플러그인 형태로 설계되었다. 실험 결과, 다양한 VMR 모델에 적용하여 성능 향상을 확인하였다.
Statistik
제안된 방법은 QVHighlights 데이터셋에서 순간 검색 mAP를 4.8% 향상시켰다.
Charades-STA 데이터셋에서 mIoU를 0.6% 향상시켰다.
TVSum 데이터셋에서 Top-5 mAP를 87.4%까지 달성했다.
YouTube-HL 데이터셋에서 mAP를 75.3%까지 달성했다.
Citater
"LLM 인코더는 개념 간 관계를 효과적으로 정제할 수 있다."
"가상 이벤트를 활용하여 예측된 순간이 이벤트 경계 내에 위치하도록 유도함으로써 인접 순간의 방해 요소를 줄일 수 있다."