Core Concepts
ユーザー生成コンテンツの動画品質を効率的に推定するための深層学習ベースの手法を提案し、評価する。
Abstract
このペーパーは、ユーザー生成コンテンツ(UGC)の動画品質評価に焦点を当てたAIS 2024 Video Quality Assessment (VQA) チャレンジについて説明しています。このチャレンジの目的は、UGCの知覚品質を推定できる深層学習ベースの手法を集めることです。
YT-UGC データセットには、スポーツ、ゲーム、歌詞、アニメなど、多様なコンテンツ、品質、解像度が含まれています。提案手法は1秒以内に30 FHDフレームを処理する必要があります。このチャレンジには合計102人の参加者が登録し、15人がコードとモデルを提出しました。上位5つの提出物の性能を確認し、ユーザー生成コンテンツの効率的な動画品質評価のための多様な深層モデルのサーベイを提供しています。
提案手法の中で、COVER、TVQE、Q-Alignは特に優れた性能を示しました。これらの手法は、視覚的特徴、美的特徴、セマンティック特徴を組み合わせたり、言語モデルを活用したりすることで、高精度な品質推定を実現しています。一方で、効率性の観点では、COVER、TVQE、Q-Alignは多数のパラメータを持つものの、30 FHDフレームを1秒以内に処理できることが示されました。
Stats
動画の解像度は360p、480p、720p、1080p、2160pと幅広い
動画の長さは20秒
動画には、ブロック化、ぼけ、バンディング、ノイズ、ジャーキネスなどの知覚アーティファクトが含まれている
動画のカテゴリは15種類あり、アニメーション、ゲーミング、カバーソング、ミュージックビデオ、ブログなどが含まれる
Quotes
"過去20年間で、Netflixやユーチューブなどのオンラインビデオストリーミングアプリケーションの人気と需要が大幅に増加しています。"
"ユーザー生成コンテンツとは、ユーザーがコンシューマグレードのデバイス(主にスマートフォン、タブレット、GoPro等)を使って撮影したコンテンツを指します。"