核心概念
随着文本到语音(TTS)和语音转换(VC)技术的快速发展,检测深度造假语音变得越来越重要。然而,学术界和行业界缺乏全面和直观的基准来评估检测器的性能。现有数据集在语言多样性方面有限,并且缺乏在实际生产环境中遇到的许多操作。为了填补这一空白,我们提出了VoiceWukong,一个旨在评估深度造假语音检测器性能的基准。我们收集了19种先进的商业工具和15种开源工具生成的深度造假语音,并创建了38种数据变体,涵盖6种操作类型,构建了用于深度造假语音检测的评估数据集。使用VoiceWukong,我们评估了12种最先进的检测器,发现AASIST2取得了最佳的等误差率(EER)13.50%,而其他检测器的EER都超过20%。我们的发现表明,这些检测器在实际应用中面临着巨大挑战,性能大幅下降。此外,我们还进行了一项涉及300多名参与者的用户研究。结果表明,不同的检测器和人类在不同欺骗水平的深度造假语音识别能力各不相同,而大型语言模型(LALM)则完全无法检测。
要約
本文提出了VoiceWukong,一个全面的深度造假语音检测基准。
- 数据集构建:
- 收集了19种先进的商业工具和15种开源工具生成的深度造假语音,涵盖英语和中文两种最广泛使用的语言。
- 创建了38种数据变体,覆盖6种操作类型,包括噪声注入、音量控制、时间拉伸、采样率变化、回放和渐变淡入淡出效果。
- 最终构建了265,200个英语和148,200个中文深度造假语音样本,以及等量的真实语音样本。
- 检测器评估:
- 评估了12种最先进的深度造假语音检测器,包括AASIST2、RawNet2、RawBoost等。
- AASIST2在英语和中文数据集上取得了最佳的等误差率(EER),分别为13.50%和13.54%。其他检测器的EER都超过20%。
- 检测器在不同操作变体上的性能存在显著差异,噪声注入会导致大多数检测器性能大幅下降。
- 用户研究:
- 进行了一项涉及300多名参与者的用户研究,根据深度造假语音欺骗人类的有效性将其划分为3个等级。
- 分析了不同检测器和人类在各等级深度造假语音上的识别能力,以及大型语言模型(LALM)的性能。
- 结果表明,人类和检测器在不同欺骗水平的深度造假语音识别能力各不相同,LALM完全无法检测。
总之,VoiceWukong为深度造假语音检测提供了一个全面的基准,并揭示了现有检测器在实际应用中面临的挑战,为进一步优化和改进提供了启示。
統計
噪声注入会导致大多数检测器的准确率下降超过10%。
在15dB信噪比下,AASIST2在英语数据集上的准确率下降1.044%,在中文数据集上下降5.434%,表现最佳。
在15dB信噪比下,OC-Softmax在中文数据集上的准确率下降31.118%,表现最差。
引用
"随着文本到语音(TTS)和语音转换(VC)技术的快速发展,检测深度造假语音变得越来越重要。"
"现有数据集在语言多样性方面有限,并且缺乏在实际生产环境中遇到的许多操作。"
"使用VoiceWukong,我们评估了12种最先进的检测器,发现AASIST2取得了最佳的等误差率(EER)13.50%,而其他检测器的EER都超过20%。"