이 논문은 부분적 관련 비디오 검색(PRVR) 문제를 해결하기 위한 효율적이고 고성능의 방법을 제안한다. 기존 연구에서는 비주얼 백본을 사용하여 프레임을 인코딩하는 데 어려움이 있었는데, 이는 긴 비디오의 프레임 수가 증가하면서 계산 비용이 크게 증가하기 때문이다. 이를 해결하기 위해 저자들은 슈퍼 이미지에 주목한다. 슈퍼 이미지는 비디오 프레임을 N x N 그리드 레이아웃으로 재배열한 것으로, 이를 통해 비주얼 인코딩 수를 1/N^2로 줄일 수 있다.
저자들은 먼저 비전-언어 모델(VLM)이 슈퍼 이미지에 대해 제로샷 학습이 가능한지 확인한다. 이를 위해 쿼리 어텐션 슈퍼 이미지 검색(QASIR) 방법을 제안하여, 입력 쿼리와 관련된 부분 순간을 집중적으로 학습한다. 제로샷 QASIR 실험을 통해 두 가지 발견을 얻었다: (1) VLM이 슈퍼 이미지에 일반화할 수 있으며, (2) 그리드 크기, 이미지 해상도, VLM 크기가 성능과 계산 비용 간의 트레이드오프 파라미터라는 것이다.
이를 바탕으로 저자들은 미세 조정 QASIR와 하이브리드 QASIR를 제안한다. 미세 조정 QASIR는 VLM이 슈퍼 이미지를 효과적으로 학습할 수 있도록 하며, 하이브리드 QASIR는 대형 VLM의 성능 저하를 최소화하면서도 계산 비용을 크게 줄일 수 있다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania