本研究は、発話者識別(SI)ディープニューラルネットワーク(DNN)のバックドア攻撃に対する脆弱性を探索しています。特に、話者の感情的プロソディを使ったバックドア攻撃に焦点を当てています。
主な結果は以下の通りです:
3つのデータセット(ESD-en、ESD-zh、RAVDESS)と3つのDNNアーキテクチャ(ResNet、X-vectors、ECAPA-TDNN)を使った実験では、感情的プロソディを使ったバックドア攻撃が非常に効果的であることが示されました。攻撃成功率(ASR)は最大98.9%に達し、クリーンな精度(CA)も最低86.4%を維持しました。
感情的プロソディを使ったバックドア攻撃に対する防御策として、プルーニングが最も有望であることが示されました。複数の畳み込み層をプルーニングすることで、ASRを最大40%低下させることができました。
STRIP-ViTAやデータ前処理(量子化、メディアンフィルタリング、圧縮)による防御策は、ASRを十分に低下させることができませんでした。
感情の種類によって攻撃の効果が異なり、特に悲しみや中立の感情が効果的なトリガーとなることが分かりました。
本研究の結果は、感情的プロソディを使ったバックドア攻撃の脅威を示しており、発話者識別システムの強化に向けた重要な知見を提供しています。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies