Core Concepts
영화 내레이션 생성은 복잡한 과제로, 단순히 영상 내용을 설명하는 것을 넘어 등장인물, 배경, 사건 등을 종합적으로 이해하고 연결해야 한다. 이를 위해 대규모 고품질 데이터셋과 단계적 목표 설정, 평가 방법이 필요하다.
Abstract
이 논문은 영화 내레이션 생성 과제를 발전시키기 위한 노력을 소개한다.
첫째, 기존 Movie101 데이터셋의 한계를 보완하여 Movie101v2라는 대규모 고품질 영화 내레이션 데이터셋을 구축했다. 데이터 규모를 2배 이상 늘리고, 등장인물 정보를 정제하여 데이터 품질을 향상시켰다.
둘째, 영화 내레이션 생성의 최종 목표를 3단계로 나누어 제시했다. 1단계는 영상 내 시각적 사실 기술, 2단계는 영화 내 플롯 추론 및 내레이션 생성, 3단계는 실제 활용 가능한 수준의 내레이션 생성이다. 이를 위해 기존 평가 방식의 한계를 지적하고, 단계별 평가 지표를 새롭게 제안했다.
셋째, 최신 대규모 비전-언어 모델들을 Movie101v2 데이터셋에 적용하고 분석했다. 실험 결과, 현재 모델들은 영화 내레이션 생성에 여전히 많은 어려움을 겪고 있음을 확인했다. 시각적 인지 능력과 텍스트 생성 능력 모두에서 한계가 있음을 밝혔다.
이 연구는 영화 내레이션 생성 과제의 발전을 위한 데이터, 과제 정의, 평가 방법, 그리고 모델 분석 등 다각도의 기여를 제공한다. 향후 연구에 유용한 기반을 마련했다고 볼 수 있다.
Stats
영화 내레이션 데이터셋 Movie101v2는 총 203편의 영화, 46,000개의 내레이션 문단으로 구성되어 있다.
각 내레이션 문단의 평균 길이는 12.8초, 60단어이다.
영화 캐스트 정보는 평균 7.3명으로 구성되어 있다.
Quotes
"영화 내레이션 생성은 단순히 영상 내용을 설명하는 것을 넘어 등장인물, 배경, 사건 등을 종합적으로 이해하고 연결해야 하는 복잡한 과제이다."
"현재 모델들은 영화 내레이션 생성에 여전히 많은 어려움을 겪고 있으며, 시각적 인지 능력과 텍스트 생성 능력 모두에서 한계가 있다."