Konsep Inti
이 연구는 영화 오디오 설명 생성을 위한 새로운 데이터셋과 모델 아키텍처를 제안한다. 데이터셋은 기존 데이터를 활용하여 영화 클립과 오디오 설명을 정렬하거나 지침 동영상을 활용하여 의사 오디오 설명을 생성한다. 제안된 모델 아키텍처는 최신 비디오-언어 모델을 활용하여 기존 방법보다 큰 성능 향상을 보인다. 또한 오디오 설명 평가를 위한 새로운 지표를 제안한다.
Abstrak
이 연구는 영화 오디오 설명(AD) 생성을 위한 새로운 접근법을 제안한다. 주요 내용은 다음과 같다:
- 데이터셋 구축:
- CMD-AD: 기존 영화 클립 데이터셋 CMD와 오디오 설명 데이터를 정렬하여 새로운 데이터셋 구축
- HowTo-AD: 지침 동영상 데이터셋 HowTo100M의 설명을 변형하여 의사 오디오 설명 데이터셋 생성
- 모델 아키텍처:
- Movie-BLIP2와 Movie-Llama2: 최신 비디오-언어 모델 아키텍처를 활용하여 오디오 설명 생성
- 기존 방법 대비 큰 성능 향상 달성
- 평가 지표:
- CRITIC: 생성된 오디오 설명의 캐릭터 언급 정확도 측정
- LLM-AD-eval: 대규모 언어 모델을 활용한 오디오 설명 품질 평가
이를 통해 영화 오디오 설명 생성 기술의 발전을 이루었다.
Statistik
영화 클립 1개당 평균 2분 길이
CMD-AD 데이터셋: 1,432편의 영화, 101,268개의 오디오 설명
HowTo-AD 데이터셋: 180,034개의 동영상, 3,400,000개의 의사 오디오 설명
Kutipan
"Cinema is a matter of what's in the frame and what's out." - Martin Scorsese