Core Concepts
AI生成コンテンツの急速な発展に伴い、Text-to-Video(T2V)生成が広く注目されています。本研究では、T2Vモデルの品質を定量的に評価する方法が不足していることを指摘し、最大規模のT2VQA-DBデータセットを確立しました。このデータセットは9つの異なるT2Vモデルによって生成された10,000本のビデオで構成されており、主観的な研究を通じて各ビデオの平均意見スコアを取得しました。これに基づいて、主観的に整列したText-to-Video品質評価(T2VQA)モデルを提案し、既存のT2VメトリックやSOTAビデオ品質評価モデルよりも優れた性能を達成することが示されました。
Abstract
人工知能生成コンテンツ(AIGC)が急速に増加しており、その中でもText-to-Video(T2V)生成が注目されている。
T2Vモデルの品質評価方法が不足している課題がある。
最大規模のT2VQA-DBデータセットを確立し、9つの異なるT2Vモデルによって生成された10,000本のビデオで構成されている。
主観的な研究を通じて各ビデオの平均意見スコアを取得し、新しいtransformer-basedモデルであるT2VQAを提案。
T2VQAは既存のメトリックやSOTAビデオ品質評価モデルよりも優れた性能を示す。
Overview:
AI-generated contents have increased exponentially, with Text-to-Video (T2V) generation receiving widespread attention.
There is a lack of methods to quantitatively evaluate the quality of T2V models.
Established the largest-scale T2VQA-DB dataset with 10,000 videos generated by 9 different T2V models.
Proposed a new transformer-based model called T2VQA based on subjective study data.
T2VQA outperforms existing metrics and SOTA video quality assessment models.
Quotes
"Among them, Text-to-Video (T2V) generation has received widespread attention."
"With the rapid development of generative models, Artificial Intelligence-Generated Contents (AIGC) have exponentially increased in daily lives."