Core Concepts
텍스트 기반 비디오 생성 모델의 품질을 정량적으로 평가할 수 있는 대규모 데이터셋과 모델을 제안한다.
Abstract
이 논문은 텍스트 기반 비디오 생성 모델의 품질을 평가하기 위한 대규모 데이터셋과 모델을 제안한다.
데이터셋 구축:
10,000개의 텍스트 기반 비디오를 9개의 다양한 모델로 생성하였다.
27명의 참가자를 통해 각 비디오의 평균 의견 점수(MOS)를 수집하였다.
이를 통해 가장 큰 규모의 텍스트 기반 비디오 품질 평가 데이터셋인 T2VQA-DB를 구축하였다.
모델 제안:
텍스트-비디오 정렬과 비디오 충실도 관점에서 특징을 추출하는 인코더를 설계하였다.
특징 융합 모듈과 대규모 언어 모델을 활용하여 비디오 품질을 예측하는 T2VQA 모델을 제안하였다.
실험 결과:
T2VQA-DB에서 T2VQA가 기존 메트릭과 최신 비디오 품질 평가 모델을 능가하는 성능을 보였다.
Sora 데이터셋에서도 T2VQA의 우수한 일반화 성능을 확인하였다.
Stats
텍스트 기반 비디오 생성 모델들은 다양한 수준의 비디오 품질을 생성한다.
LaVie 모델은 가장 높은 평균 MOS 점수 66.9점을 받았다.
Tune-a-Video 모델은 가장 낮은 평균 MOS 점수 39.1점과 39.9점을 받았다.
Quotes
"Though many T2V models have been released for generating high perceptual quality videos, there is still lack of a method to evaluate the quality of these videos quantitatively."
"To facilitate the development of a more comprehensive and accurate metric, we establish the largest-scale subjective T2V dataset to date, named Text-to-Video Quality Assessment DataBase (T2VQA-DB)."
"Experimental results show that T2VQA outperforms existing T2V generation metrics and state-of-the-art VQA models, validating its effectiveness in measuring the perceptual quality of text-generated videos."