이 논문은 비디오 안내서 탐색을 위한 새로운 문제를 소개합니다. 사용자가 현재 보고 있는 비디오와 특정 방식으로 실행 경로를 변경하고자 하는 자연어 쿼리가 주어질 때, 목표는 대규모 안내서 비디오 저장소에서 요청된 변경 사항을 충족하는 관련 "우회 비디오"를 찾는 것입니다.
이를 해결하기 위해 VidDetours라는 새로운 비디오-언어 접근 방식을 제안합니다. VidDetours는 비디오와 텍스트 조건부 쿼리를 사용하여 대규모 안내서 비디오에서 대상 시간 세그먼트를 검색하는 방법을 학습합니다. 또한 안내서 비디오 내레이션 텍스트를 활용하여 약하게 감독된 학습 데이터를 생성하는 언어 기반 파이프라인을 고안합니다.
제안된 접근 방식을 요리 안내서 비디오 도메인에 적용하여 사용자가 현재 레시피에서 대체 재료, 도구 및 기술을 찾을 수 있도록 합니다. 16,000개의 샘플로 구성된 기준 데이터셋을 사용하여 검증한 결과, 최신 비디오 검색 및 질문 답변 방법보다 recall 율이 35% 이상 향상되었습니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kumar Ashuto... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2401.01823.pdfDeeper Inquiries