Core Concepts
Light-VQA+は、CLIP言語モデルを活用し、ビジョン-言語ガイダンスを提供することで、ビデオ露出補正の品質を正確に評価できる。
Abstract
本論文では、ビデオ露出補正の品質評価を目的とした新しいデータセット「VEC-QA」を構築した。VEC-QAには、過剰露出ビデオとその補正版、低光環境ビデオとその補正版が含まれている。
提案手法のLight-VQA+は、CLIP言語モデルを活用し、ビジョン-言語ガイダンスを提供することで、ビデオの明るさ、ノイズ、明るさの一貫性などの特徴を効率的に抽出する。また、空間情報と時間情報を融合するためにクロスアテンションモジュールを導入し、最終的な品質スコアを算出する際には人間の視覚システムに基づいた重み付けを行う。
実験結果から、Light-VQA+は既存の一般的なVQAモデルよりも、VEC-QAデータセットおよび他のパブリックデータセットにおいて優れた性能を示すことが分かった。
Stats
過剰露出ビデオの平均明るさは低光環境ビデオよりも高い
過剰露出ビデオの平均コントラストは低光環境ビデオよりも高い
過剰露出ビデオと低光環境ビデオの平均彩度に大きな差はない
Quotes
"Light-VQA+は、CLIP言語モデルを活用し、ビジョン-言語ガイダンスを提供することで、ビデオ露出補正の品質を正確に評価できる。"
"実験結果から、Light-VQA+は既存の一般的なVQAモデルよりも、VEC-QAデータセットおよび他のパブリックデータセットにおいて優れた性能を示すことが分かった。"