Core Concepts
AIGCビデオの品質評価には、視覚的調和、ビデオ-テキスト一貫性、ドメイン分布ギャップの3つの側面があり、それぞれに特定のモデリング手法を設計することで効果的な解決策を提案する。
Abstract
本研究では、AIGCビデオの品質評価を3つの側面に分類している:
視覚的調和
従来のVQA手法であるDOVERを活用し、美的および技術的な評価を行う。
学習可能な注意プーリングを導入し、時空間モデリング能力を強化する。
ビデオ-テキスト一貫性
明示的なプロンプト注入と暗黙的なテキストガイダンスを組み合わせ、マルチモーダル理解を向上させる。
Video-LLaVAを使ってビデオキャプションを生成し、プロンプトとの類似度を計算する。
ドメイン分布ギャップ
異なるテキスト-ビデオモデルによって生成されたビデオには、視覚品質、流暢性、スタイルなどの違いがある。
補助的なドメイン分類タスクを導入し、ビデオ特徴をより識別可能にする。
これらの手法を組み合わせることで、AIGCビデオの品質評価性能を大幅に向上させることができる。提案手法は、NTIRE 2024 Quality Assessment for AI-Generated Content - Track 2 Videoチャレンジの3位入賞チームで使用されており、その有効性が実証されている。
Stats
異なるテキスト-ビデオモデルによって生成されたビデオは、視覚品質、流暢性、スタイルなどに大きな違いがある。
ビデオ-テキスト一貫性は、AIGCビデオの品質評価において重要な側面である。
Quotes
"AIGCビデオの品質評価には、視覚的調和、ビデオ-テキスト一貫性、ドメイン分布ギャップの3つの側面がある。"
"異なるテキスト-ビデオモデルによって生成されたビデオには、視覚品質、流暢性、スタイルなどの違いがある。"