이 논문은 CLIP(Contrastive Language-Image Pre-training) 모델을 활용하여 비디오 하이라이트 탐지 성능을 향상시키는 방법을 제안한다.
주요 내용은 다음과 같다:
비디오 하이라이트 탐지 작업에서 CLIP 모델의 잠재력을 활용하기 위해 CLIP 모델의 마지막 몇 개의 층을 fine-tuning하는 HL-CLIP 프레임워크를 제안했다.
인접한 프레임들의 유사성을 활용하기 위해 프레임 특징을 배치 단위로 쌓는 방식을 사용했다. 또한 텍스트 쿼리와의 정렬을 위해 쿼리 특징을 반복하여 프레임 차원과 맞추었다.
단순한 평균 풀링 기법인 saliency pooling을 제안하여 인접 프레임들의 의미적 유사성을 고려하여 더 강건한 saliency 점수를 추정할 수 있었다.
제안한 HL-CLIP 모델은 QVHighlight 벤치마크에서 최신 기술 대비 우수한 성능을 달성했다.
향후 연구 방향으로는 HL-CLIP의 구조적 한계를 극복하여 비디오 내 특정 순간을 정확하게 탐지하는 모멘트 검색 작업으로 확장하는 것을 고려할 수 있다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究