核心概念
3D時空間トラジェクトリに基づく頑健な特徴抽出と時系列分析により、圧縮されたディープフェイクビデオを効果的に検出する。
要約
本論文は、圧縮されたディープフェイクビデオの検出に取り組んでいる。従来の手法は主に非圧縮ビデオを対象としており、圧縮ビデオに適用すると性能が低下する問題がある。
提案手法は以下の2つのモジュールから構成される:
- 3D時空間特徴構築モジュール:
- 頑健な3Dモデルを用いて顔ランドマークの位置推定と追跡を行う
- 顔の表情と頭部の動きを分離し、空間的・時間的な特徴を構築する
- 位相空間運動軌跡分析モジュール:
- 時間遅延埋め込み手法を用いて特徴の位相空間軌跡を再構築する
- 軽量なTransformerアーキテクチャを用いて、時空間パターンの違いを探索する
- Dempster-Shaferの証拠理論を用いてモデル結果を融合する
実験の結果、提案手法は圧縮ビデオに対して優れた検出性能を示し、従来手法を上回っている。また、検出効率も高く、実用的な展開が期待できる。
統計
圧縮ビデオと非圧縮ビデオの間で、PSNRは31.06 dBと32.06 dBと低下している
SSIMは0.75と0.84、UQIは0.82と0.99と低下しており、圧縮によって大きな画質劣化が生じている
IEFは0.93と0.91、VIFは0.80と0.48、RECOは1.00と0.85と、圧縮によって構造情報や輪郭情報が失われている
引用
"Deepfake技術の悪用は、国家、社会、個人に深刻な脅威をもたらす可能性がある。"
"既存の検出手法は主に非圧縮ビデオを対象としており、圧縮ビデオに適用すると性能が低下する。"
"提案手法は、3D時空間特徴と位相空間運動軌跡分析により、圧縮ビデオに対して優れた検出性能を示す。"