核心概念
本論文描述了國立臺灣大學與南洋理工大學團隊參與語音隱私挑戰賽 2024 的系統設計,著重於改進現有基準模型,以在保護語者隱私的同時,盡可能保留語音的情感和內容資訊。
摘要
論文概述
本論文描述了國立臺灣大學與南洋理工大學團隊為參與語音隱私挑戰賽 2024 所提出的系統設計。團隊並未提出全新的語音匿名化系統,而是著重於改進現有的基準模型 (B3 和 B5),以在保護語者隱私的同時,盡可能保留語音的情感和內容資訊。
系統設計
基於 B3 模型的改進
- 加入情感嵌入作為 FastSpeech2 模型的額外輸入,提升情感識別效能。
- 使用 WavLM 和 ECAPA2 等不同的說話者嵌入模型,取代原有的全局風格標記 (GST) 模型。
- 探索不同的匿名化策略,例如隨機說話者選擇和跨性別匿名化。
- 實驗不同的韻律匿名化強度,以找到隱私和效用之間的最佳平衡。
基於 B5 模型的改進
- 引入均值回歸 F0 方法,調整語音的基頻 (F0),以提升隱私保護。
- 在均值回歸 F0 的基礎上,添加加性高斯白雜訊 (AWGN),進一步提升 EER 指標。
基於解纏模型的探索
- 比較了 ß-VAE 和 NaturalSpeech3 FACodec 兩種解纏模型,發現 NaturalSpeech3 在效用方面表現更佳。
- 針對 NaturalSpeech3 進行進一步實驗,採用 AWGN 和跨性別轉換等技術,提升其隱私保護能力。
實驗結果
- 情感嵌入的加入提升了情感識別效能,但可能會導致說話者身分洩露,影響隱私保護。
- 移除韻律匿名化可以提升語音辨識和情感識別效能,但會降低隱私保護。
- 隨機說話者選擇和 WGAN 匿名化技術在隱私和效用指標方面表現相似。
- 降低韻律匿名化強度會降低隱私保護,但提升語音辨識和情感識別效能。
- NaturalSpeech3 FACodec 模型在效用方面表現良好,透過 AWGN 和跨性別轉換等技術,可以進一步提升其隱私保護能力。
- 均值回歸 F0 方法和 AWGN 可以有效提升 B5 模型的 EER 指標,但 EER 結果容易受到多種因素影響,具有一定的不穩定性。
總結
本論文提出的系統改進方法,成功提升了基準模型在語音匿名化任務中的效能,展現了在保護語者隱私的同時,保留語音情感和內容資訊的可能性。
統計資料
使用 Wav2Vec2 Large Robust 模型提取情感嵌入,該模型在 MSP-Podcast 資料集上進行了微調。
WavLM 和 ECAPA2 說話者嵌入模型的嵌入大小分別為 128 和 512。
韻律匿名化實驗中,F0 和能量乘數的範圍設定為 [0.6, 1.4]、[0.7, 1.3]、[0.8, 1.2] 和 [0.9, 1.1]。
NaturalSpeech3 FACodec 模型實驗中,對說話者嵌入應用不同強度的 AWGN,scale 值設定為 0.075、0.078 和 0.08。
B5 模型的均值回歸 F0 方法中,α 值設定為 0.25、0.5 和 0.75。
針對 EER4 條件,在均值回歸 F0 (α = 0.75) 的基礎上,添加了 10 分貝的 AWGN。