본 연구는 비디오 데이터의 구조와 정보를 활용하여 정보성 있는 요약을 생성하는 비지도 학습 접근법을 제안한다. 고정된 주석에서 벗어나 대표적인 요약을 효과적으로 생성할 수 있다.
본 연구는 기존 클러스터 기반 비디오 요약 모델의 한계를 해결하기 위해 시간적 맥락을 활용하는 새로운 접근법을 제안한다. 제안 모델은 비디오 프레임을 시간적으로 연속적인 세그먼트로 분할하고, 이를 활용하여 최종 요약을 생성한다.
대규모 언어 모델을 활용하여 자동으로 대규모 비디오 요약 데이터셋을 구축하고, 이를 통해 기존 접근법의 한계를 극복하는 새로운 비디오 요약 모델을 제안한다.