Core Concepts
영상 검색을 위한 해석 가능한 임베딩 모델의 성능을 향상시키기 위해 대규모 생성 텍스트-영상 데이터셋과 다중 단어 개념 은행을 활용한다.
Abstract
이 논문은 영상 검색을 위한 해석 가능한 임베딩 모델의 성능을 향상시키기 위한 세 가지 주요 구성 요소를 제안한다.
다중 단어 개념 은행 구축:
문장 구문 분석을 통해 단어뿐만 아니라 구문 개념을 포함하는 개념 은행을 구축
이를 통해 쿼리 단어 간 관계를 보다 정확하게 모델링할 수 있음
기존 단어 기반 개념 은행 대비 TRECVid AVS 쿼리 세트에서 평균 약 60% 성능 향상
대규모 생성 텍스트-영상 데이터셋 활용:
생성 모델을 활용하여 기존 영상-캡션 데이터셋의 한계를 극복하고 7백만 개의 생성 텍스트-영상 쌍을 구축
이를 통해 해석 가능한 임베딩 모델의 성능을 향상시킬 수 있음
최신 텍스트/영상 특징 통합:
최근 발전된 사전 학습 텍스트/영상 인코더를 활용하여 기존 모델의 성능을 개선
특히 영상 인코더 개선이 TRECVid AVS 쿼리 세트에서 큰 성능 향상을 가져옴
이러한 세 가지 구성 요소를 통합한 모델은 TRECVid AVS 벤치마크에서 기존 최고 성능을 크게 개선하여 새로운 최신 기술 수준을 달성했다.
Stats
제안된 다중 단어 개념 은행은 기존 단어 기반 개념 은행 대비 TRECVid AVS 쿼리 세트에서 평균 약 60% 성능 향상을 가져왔다.
대규모 생성 텍스트-영상 데이터셋 활용을 통해 임베딩 기반 검색 성능이 향상되었다.
최신 텍스트/영상 특징 통합은 TRECVid AVS 쿼리 세트에서 평균 약 20% 성능 향상을 가져왔다.