본 논문은 사용자가 이미지를 포함한 멀티모달 쿼리(MQ)를 사용하여 비디오에서 특정 이벤트가 발생하는 구간을 찾는, 비디오 이벤트 지역화라는 새로운 과제를 소개합니다. 기존 연구는 주로 자연어 쿼리(NLQ)에 의존하여 비디오 이벤트 지역화를 수행했지만, 본 논문은 이미지를 쿼리에 통합하여 비언어적 또는 생소한 개념을 보다 유연하게 표현할 수 있는 MQ의 잠재력을 강조합니다.
저자들은 MQ를 사용한 비디오 이벤트 지역화를 위한 새로운 벤치마크인 ICQ(Image-Text Composed Queries)와 평가 데이터셋인 ICQ-Highlight를 제시합니다. ICQ-Highlight는 합성 참조 이미지와 사람이 직접 작성한 쿼리로 구성되어 있으며, 다양한 시나리오에서 모델 성능을 평가하기 위해 4가지 참조 이미지 스타일(낙서, 만화, 영화, 사실적)을 정의합니다.
또한, 기존 NLQ 기반 모델을 새로운 작업에 적용하기 위해 2가지 멀티모달 쿼리 적응(MQA) 방식, 즉 언어 공간 MQA 및 임베딩 공간 MQA를 제안합니다. 언어 공간 MQA에서는 MQ를 NLQ로 변환하는 3가지 훈련-프리 적응 방법(MQ-Cap, MQ-Sum, VQ-Enc)을 소개하고, 임베딩 공간 MQA에서는 의사-MQ에 대한 대리 미세 조정 전략(SUIT)을 제안합니다.
저자들은 전문화된 비디오 지역화 모델부터 비디오 대규모 언어 모델(Video LLM)에 이르기까지 다양한 분야의 12가지 최첨단 백본 모델을 체계적으로 벤치마크하여 실험을 수행했습니다. 실험 결과, 기존 모델들이 MQA를 통해 새로운 벤치마크에 효과적으로 적응할 수 있음을 보여주었으며, MQ가 비디오 이벤트 지역화에 있어 높은 잠재력을 가지고 있음을 시사합니다.
특히, MQ가 낙서 이미지와 같이 최소한의 추상적인 형태일지라도 모델 성능이 크게 제한되지 않는다는 점은 주목할 만합니다. 이는 비디오 검색과 같은 실제 응용 프로그램에서 낙서를 MQ로 사용할 수 있는 새로운 가능성을 제시합니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Gengyuan Zha... at arxiv.org 11-22-2024
https://arxiv.org/pdf/2406.10079.pdfDeeper Inquiries