本研究では、模倣、リプレイ攻撃、ディープフェイクなどのさまざまなタイプのスプーフィングされた音声に対して、人間が知覚可能な言語的特徴を活用することで、スプーフィングされた音声の検出精度を向上させることを目的としている。
まず、専門家によって定義された5つの言語的特徴(ピッチ、ポーズ、子音の開放、呼吸、音質)を抽出し、ハイブリッドデータセットに組み込んだ。次に、因果関係発見アルゴリズムを用いて、これらの言語的特徴とスプーフィングラベルの因果関係を分析した。その結果、音質異常とピッチ異常が最も重要な特徴であることが示された。さらに、因果推論を行い、各言語的特徴がスプーフィングラベルに与える影響を定量的に評価した。
この因果分析の結果は、言語的特徴を活用したスプーフィング音声検出モデルの改善に役立つ。また、人間の知識を取り入れたAIモデルの構築や、言語的特徴の自動ラベリングプロセスの改善にも活用できる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問