テキストからビデオ品質評価のための主観的に整列したデータセットとメトリック
AI生成コンテンツの急速な発展に伴い、Text-to-Video(T2V)生成が広く注目されています。本研究では、T2Vモデルの品質を定量的に評価する方法が不足していることを指摘し、最大規模のT2VQA-DBデータセットを確立しました。このデータセットは9つの異なるT2Vモデルによって生成された10,000本のビデオで構成されており、主観的な研究を通じて各ビデオの平均意見スコアを取得しました。これに基づいて、主観的に整列したText-to-Video品質評価(T2VQA)モデルを提案し、既存のT2VメトリックやSOTAビデオ品質評価モデルよりも優れた性能を達成することが示されました。