Core Concepts
텍스트 생성 비디오의 품질을 정량적으로 평가할 수 있는 대규모 데이터셋과 모델을 제안한다.
Abstract
이 논문은 텍스트 생성 비디오의 품질을 평가하기 위한 대규모 데이터셋과 모델을 제안한다.
텍스트 생성 비디오 품질 평가를 위한 가장 큰 규모의 데이터셋인 T2VQA-DB를 구축했다. 이 데이터셋은 9개의 다양한 텍스트 생성 비디오 모델을 사용하여 생성된 10,000개의 비디오와 27명의 사용자가 평가한 평균 의견 점수(MOS)로 구성된다.
T2VQA-DB를 기반으로 텍스트-비디오 정렬과 비디오 충실도 관점에서 특징을 추출하고, 대형 언어 모델을 활용하여 주관적 정렬 예측 점수를 제공하는 T2VQA 모델을 제안했다.
실험 결과, T2VQA는 기존 텍스트 생성 비디오 평가 지표와 최신 비디오 품질 평가 모델을 능가하는 성능을 보였다. 정량적 분석을 통해 T2VQA가 텍스트 생성 비디오의 품질을 효과적으로 측정할 수 있음을 검증했다.
Stats
텍스트 생성 비디오 모델들은 다양한 품질의 비디오를 생성한다. LaVie 모델이 가장 높은 평균 MOS 점수 66.9를 보였고, Tune-a-Video 모델이 가장 낮은 39.1과 39.9의 점수를 보였다.
사람 관련 프롬프트에 대한 모든 모델의 성능이 가장 낮았다. 이는 사람 얼굴과 동작을 모델링하는 것이 다른 카테고리에 비해 더 복잡하기 때문으로 보인다.