深度造假语音检测基准测试
随着文本到语音(TTS)和语音转换(VC)技术的快速发展,检测深度造假语音变得越来越重要。然而,学术界和行业界缺乏全面和直观的基准来评估检测器的性能。现有数据集在语言多样性方面有限,并且缺乏在实际生产环境中遇到的许多操作。为了填补这一空白,我们提出了VoiceWukong,一个旨在评估深度造假语音检测器性能的基准。我们收集了19种先进的商业工具和15种开源工具生成的深度造假语音,并创建了38种数据变体,涵盖6种操作类型,构建了用于深度造假语音检测的评估数据集。使用VoiceWukong,我们评估了12种最先进的检测器,发现AASIST2取得了最佳的等误差率(EER)13.50%,而其他检测器的EER都超过20%。我们的发现表明,这些检测器在实际应用中面临着巨大挑战,性能大幅下降。此外,我们还进行了一项涉及300多名参与者的用户研究。结果表明,不同的检测器和人类在不同欺骗水平的深度造假语音识别能力各不相同,而大型语言模型(LALM)则完全无法检测。