Core Concepts
ビデオ内の視聴覚の不整合を検出するための基準手法を提案し、不整合検出のための実験プロトコルを導入する。
Abstract
本論文では、ビデオ内の視聴覚の不整合を検出するための基準手法を提案している。まず、視聴覚シーン分類器を設計・最適化し、既存の分類ベースラインと比較する。次に、この分類器を音声と映像それぞれに適用することで、両者の間の不整合を検出することができる。さらに、この研究を促進し、共通の評価プラットフォームを提供するために、そのような不整合をシミュレートするベンチマークデータセットを導入している。提案手法は、シーン分類の最新技術を達成し、視聴覚の不整合検出においても有望な結果を示しており、コンテンツ検証アプリケーションへの活用が期待される。
Stats
提案手法は、DCASE 2021のタスク1Bの最高スコアである95.1%を上回る97.24%の精度を達成した。
3クラスのVADD データセットでは95.54%のF1スコアを得たが、10クラスのデータセットでは79.16%に低下した。
Quotes
"デジタル虚偽情報は、デジタルメディアを通じた意図的な虚偽または誤解を招く情報の散布を意味する。"
"操作された内容を生成しようとする悪意のあるユーザーは、実際のイベントからの本物の音響環境にアクセスできない可能性が高く、代わりに既存の環境音を使用する可能性がある。その結果、生成された操作された内容には、音声と映像の間に不整合が含まれる可能性がある。"