Core Concepts
このチャレンジは、AI生成画像(AIGI)とAI生成動画(AIGV)の知覚品質を正確に予測するための効率的なIQA(Image Quality Assessment)とVQA(Video Quality Assessment)手法の開発を目的としている。
Abstract
このチャレンジは、画像トラックと動画トラックの2つのトラックで構成されている。
画像トラックでは、15種類の一般的なText-to-Image (T2I)モデルによって生成された20,000枚のAIGIを含むAIGIQA-20Kデータセットを使用する。21人の被験者によって正確なMean Opinion Score (MOS)が収集されている。
動画トラックでは、9種類のText-to-Video (T2V)モデルによって生成された10,000本のAIGVを含むT2VQA-DBデータセットを使用する。27人の被験者によってMOSが収集されている。
合計514人の参加者が登録され、開発フェーズでは2,637件の提出があった。最終的に、画像トラックで16チーム、動画トラックで12チームが有効な参加チームとして最終モデルと事実シートを提出した。
提案された手法の多くは、ベースラインモデルよりも優れた結果を示している。特に上位チームの手法は、AIGCの品質を正確に予測することができ、AIGCの品質向上にも貢献すると考えられる。
Stats
画像トラックには合計20,000枚のAIGIが含まれ、15種類のT2Iモデルによって生成された。
動画トラックには合計10,000本のAIGVが含まれ、9種類のT2Vモデルによって生成された。
画像トラックには21人の被験者が参加し、動画トラックには27人の被験者が参加した。