이 논문은 편집된 비디오에 대한 이해를 높이기 위한 새로운 접근법을 제안한다. 기존의 비디오 이해 벤치마크는 주로 원본 비디오에 초점을 맞추고 있지만, 실제 응용 분야에서는 편집된 비디오가 많이 사용되고 있다. 이에 따라 저자들은 다음과 같은 내용을 제안한다:
편집된 비디오에 대한 새로운 벤치마크 데이터셋 "EditVid-QA"를 구축했다. 이 데이터셋은 효과, 웃긴 영상, 밈, 게임 등 4가지 카테고리의 편집된 비디오로 구성되어 있다.
기존 평가 지표의 문제점을 지적하고, GPT-4 기반의 새로운 평가 지표를 제안했다. GPT-3.5 기반 평가 지표에서 발견된 편향 문제를 해결하기 위해서이다.
기존 모델의 성능을 개선하기 위해 Panda-WebVid30K와 EditedVideo2K 데이터셋을 활용한 추가 학습 방법을 제안했다. 실험 결과, 제안한 방법이 기존 모델 대비 성능 향상에 효과적인 것으로 나타났다.
이 연구는 편집된 비디오에 대한 이해 능력 향상을 위한 새로운 방향을 제시하고, 관련 분야의 발전에 기여할 것으로 기대된다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究