核心概念
為了應對日益逼真的 AI 生成語音帶來的挑戰,本文提出了一種基於選擇性對抗訓練的 Deepfake 語音偵測方法 F-SAT,並建立了迄今為止最大的公開語音數據集 DeepFakeVox-HQ,以增強模型在真實世界條件下的穩健性和準確性。
摘要
Deepfake 語音偵測的挑戰與對策
引言
近年來,人工智慧生成語音技術的快速發展使得 Deepfake 語音的偵測變得越來越困難,對防範詐騙和虛假訊息的傳播構成了嚴峻挑戰。本文旨在探討如何提高 Deepfake 語音偵測模型在真實世界條件下的穩健性和準確性。
DeepFakeVox-HQ 數據集
現有的公開數據集存在規模小、種類少、過時且同質性高等問題,導致基於這些數據集訓練的模型難以泛化到真實世界中更加複雜多樣的 Deepfake 語音樣本。為了解決這個問題,本文建立了迄今為止最大的 Deepfake 語音數據集 DeepFakeVox-HQ,包含 130 萬個樣本,其中包括來自 14 個不同來源的 27 萬個高品質 Deepfake 樣本。
F-SAT:選擇性對抗訓練
研究發現,即使是最先進的 AI 語音偵測模型也經常依賴於人類難以察覺的高頻特徵進行決策。然而,高頻信號很容易被攻擊者操縱,從而降低偵測的穩健性。為了解決這個問題,本文提出了一種名為 F-SAT 的選擇性對抗訓練方法,該方法專注於高頻分量。由於 F-SAT 的對抗訓練是有針對性的,因此可以在不觸及低頻真實特徵的情況下減輕特定漏洞,從而增強模型對損壞和攻擊的抵抗力,同時保持對乾淨數據的高準確性。
實驗結果
實驗結果表明,僅使用 DeepFakeVox-HQ 訓練數據集就可以產生最先進的模型,在包含來自五大 AI 語音合成公司的 1,000 個 Deepfake 樣本和來自社群媒體的 600 個樣本的異分布測試集上實現了 33% 的改進。此外,通過結合隨機音頻增強,該模型在 24 種不同類型的損壞中均達到了最高的準確性。此外,在應用 F-SAT 後,該模型在頻域對抗攻擊中進一步實現了 30.4% 的改進,在針對時域原始波形數據的未知攻擊中實現了 18.3% 的改進。
結論
本文提出的 DeepFakeVox-HQ 數據集和 F-SAT 方法為 Deepfake 語音偵測提供了有效的解決方案,顯著提高了模型在真實世界條件下的穩健性和準確性,為應對日益嚴峻的 Deepfake 語音威脅開闢了新的方向。
統計資料
DeepFakeVox-HQ 數據集包含 130 萬個樣本,其中包括來自 14 個不同來源的 27 萬個高品質 Deepfake 樣本。
在包含來自五大 AI 語音合成公司的 1,000 個 Deepfake 樣本和來自社群媒體的 600 個樣本的異分布測試集上,僅使用 DeepFakeVox-HQ 訓練數據集的模型實現了 33% 的改進。
結合隨機音頻增強後,該模型在 24 種不同類型的損壞中均達到了最高的準確性。
應用 F-SAT 後,該模型在頻域對抗攻擊中進一步實現了 30.4% 的改進,在針對時域原始波形數據的未知攻擊中實現了 18.3% 的改進。
引述
"AI-generated voices have become increasingly realistic due to larger datasets and enhanced model capacities."
"Despite previously reported high accuracy, existing deepfake voice detectors perform poorly under real-world conditions."
"We find that even the state-of-the-art AI-voice detection models often depend on high-frequency features to make decisions, which are imperceptible to humans."
"Our training dataset boosts baseline model performance (without robust training) by 33%, and our robust training further improves accuracy by 7.7% on clean samples and by 29.3% on corrupted and attacked samples, over the state-of-the-art RawNet3 model."