本研究では、音声ディープフェイク検出のための新しい手法として、検索拡張検出(Retrieval-Augmented Detection: RAD)フレームワークを提案している。RADフレームワークでは、テスト音声サンプルと類似した参照音声サンプルを検索し、それらを検出モデルに統合することで、より正確な判断を行うことができる。
具体的には以下のような流れで処理を行う:
この検索拡張手法により、単一のモデルに頼るだけでなく、関連する参照サンプルの情報も活用できるため、ディープフェイク検出の精度が大幅に向上する。
実験の結果、提案手法はASVspoof 2021のディープフェイクデータセットで最高水準の性能を達成し、2019年および2021年のLA(Logical Access)データセットでも優れた結果を示した。また、検索された参照サンプルの分析から、同一話者の特徴が効果的に活用されていることが確認された。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések