Core Concepts
본 연구는 시간 프롬프트 지침 튜닝을 통해 비디오 요약의 다양한 모달리티를 통합하는 새로운 프레임워크 V2Xum-LLaMA를 제안한다. 또한 기존 비디오 요약 데이터셋의 한계를 극복하기 위해 대규모 다중 모달 비디오 요약 데이터셋 Instruct-V2Xum을 구축하였다.
Abstract
본 연구는 비디오 요약을 위한 새로운 프레임워크 V2Xum-LLaMA를 제안한다. V2Xum-LLaMA는 비디오-비디오(V2V), 비디오-텍스트(V2T), 비디오-비디오-텍스트(V2VT) 요약 작업을 하나의 대형 언어 모델(LLM) 텍스트 디코더로 통합한다. 이를 통해 시간 프롬프트와 작업 지침을 사용하여 과제 제어 가능한 비디오 요약을 달성할 수 있다.
또한 기존 비디오 요약 데이터셋의 한계를 극복하기 위해 Instruct-V2Xum이라는 새로운 대규모 다중 모달 비디오 요약 데이터셋을 구축하였다. Instruct-V2Xum은 30,000개의 다양한 YouTube 동영상으로 구성되어 있으며, 동영상 길이는 40초에서 940초 사이이고 평균 요약 비율은 16.39%이다. 각 동영상에는 프레임 인덱스를 참조하는 텍스트 요약이 포함되어 있어 정렬된 비디오 및 텍스트 요약을 생성할 수 있다.
실험 결과, V2Xum-LLaMA는 기존 강력한 기준 모델들을 능가하는 성능을 보였다. 또한 V2V 및 V2VT 요약 작업을 위한 향상된 평가 지표인 FCLIP과 Cross-FCLIP을 제안하였다.
Stats
평균 동영상 길이: 183초
평균 텍스트 요약 길이: 239 토큰
평균 비디오 요약 길이: 30 프레임
평균 압축 비율: 16.39%