Core Concepts
ポインターネットワークを用いることで、音声信号中の編集箇所を効率的かつ正確に特定できる。
Abstract
本研究では、音声データの改ざんを検出するための新しい手法「SigPointer」を提案している。音声スプライシング(音声の一部を削除、コピー、挿入する操作)は、犯罪捜査における音声証拠の信頼性を損なう重要な問題である。
従来の手法は、特定の特徴量に依存したり、制限された条件下でしか機能しないなどの課題があった。SigPointerは、ポインターネットワークを用いることで、連続的な音声信号から自然に編集箇所を特定できる。
実験では、圧縮や雑音の影響を受けた音声データに対しても、従来手法よりも6~10ポイント高い精度で編集箇所を特定できることを示した。特に、単一話者の音声に対する編集箇所の特定精度が高く、実践的な用途に適している。また、モデルサイズも小さく、効率的な処理が可能である。
Stats
単一の話者の音声に対する編集箇所の特定精度は、Jaccard指数で0.5184を達成した。
5回の実験の平均で、Jaccard指数は0.6977、再現率は0.7322となった。
Quotes
"ポインターネットワークを用いることで、連続的な音声信号から自然に編集箇所を特定できる。"
"圧縮や雑音の影響を受けた音声データに対しても、従来手法よりも6~10ポイント高い精度で編集箇所を特定できる。"