이 논문은 비디오 편집의 주요 구성 요소에 대한 보편적인 시각적 표현을 학습하는 것을 목표로 합니다. 기존의 비디오 표현 학습 방법은 비디오 콘텐츠의 의미, 맥락, 동작 등을 인코딩하지만, 편집 구성 요소는 이러한 정보를 포함하지 않습니다. 따라서 저자들은 편집 구성 요소의 시각적 외관만을 인코딩하는 새로운 방법을 제안합니다.
저자들은 먼저 비디오 편집 구성 요소 데이터셋 Edit3K를 소개합니다. 이 데이터셋은 6가지 주요 유형의 편집 구성 요소를 포함하는 618,800개의 비디오로 구성되어 있습니다.
다음으로 저자들은 편집 구성 요소의 시각적 외관을 인코딩하기 위한 새로운 임베딩 가이드 아키텍처를 제안합니다. 이 모델은 공간-시간 인코더와 임베딩 디코더로 구성되며, 임베딩 큐와 특정 손실 함수를 사용하여 편집 구성 요소와 원본 자료를 구분합니다.
실험 결과, 제안된 방법은 편집 구성 요소 검색 및 추천 등의 다운스트림 작업에서 우수한 성능을 보입니다. 또한 사용자 연구를 통해 제안된 방법이 기존 방법보다 편집 구성 요소의 시각적 유사성을 더 잘 포착하는 것으로 나타났습니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Xin Gu,Libo ... alle arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16048.pdfDomande più approfondite