Centrala begrepp
本文提出了一種名為 TraceableSpeech 的新型文字轉語音 (TTS) 模型,該模型透過將浮水印技術直接整合到語音合成過程中,以生成帶有可追溯性標記的語音,從而解決了現有 TTS 系統面臨的深度偽造和版權問題。
Sammanfattning
論文概述
本論文介紹了一種名為 TraceableSpeech 的新型文字轉語音 (TTS) 模型,該模型旨在解決日益增長的合成語音濫用問題,例如深度偽造音訊詐騙和版權侵權。該模型的核心創新在於將浮水印技術直接整合到語音合成過程中,從而生成帶有可追溯性標記的語音。
研究背景
近年來,基於語言模型的 TTS 技術取得了顯著進展,例如 VALL-E、SPEAR-TTS 和 SoundStorm 等模型,它們能夠合成高度逼真自然的語音。然而,這些技術的進步也引發了嚴重的安全和隱私問題,因為惡意行為者可以利用這些技術生成虛假音訊內容,進行詐騙、誹謗等活動。
研究方法
TraceableSpeech 模型透過兩個主要階段實現語音合成和浮水印嵌入:
- 神經編解碼器階段: 該階段採用類似於 HiFiCodec 的架構,將語音波形轉換為高維潛在表示。浮水印資訊透過一個名為「印記」的模組嵌入到該潛在表示中。
- 語言模型階段: 該階段採用類似於 VALL-E 的架構,根據文字提示預測語音的離散表示。浮水印資訊同樣透過「印記」模組嵌入到該離散表示中。
為了提高浮水印的隱蔽性和魯棒性,TraceableSpeech 模型採用了以下關鍵技術:
- 逐幀嵌入: 浮水印資訊被嵌入到語音的每一幀中,確保即使部分語音片段被截斷,仍然可以提取出完整的浮水印。
- 攻擊模擬訓練: 在訓練過程中模擬各種常見的浮水印攻擊,例如重新取樣、添加雜訊、刪除樣本點等,以提高模型對攻擊的抵抗能力。
實驗結果
實驗結果表明,TraceableSpeech 模型在以下方面優於現有方法:
- 浮水印隱蔽性: TraceableSpeech 生成的帶水印語音在感知質量方面與原始語音幾乎沒有差異。
- 語音品質: TraceableSpeech 合成的語音在自然度和清晰度方面表現出色。
- 魯棒性: TraceableSpeech 嵌入的浮水印在面對各種攻擊時,例如重新拼接、添加雜訊等,仍然能夠被可靠地提取出來。
研究結論
TraceableSpeech 模型為解決 TTS 技術帶來的安全和隱私問題提供了一種有效的解決方案。該模型能夠生成帶有可追溯性標記的語音,同時保持高品質的語音合成效果。
Statistik
TraceableSpeech(4@10) 在 PESQ 指標上達到 3.641 分,優於基線模型 HiFicodec + WavMark(16bit) 的 3.197 分。
TraceableSpeech(4@10) 在 ViSQOL 指標上達到 4.060 分,優於基線模型 HiFicodec + WavMark(16bit) 的 3.880 分。
在零樣本語音合成任務中,TraceableSpeech(4@10) 的詞錯率 (WER) 為 9.61%,優於基線模型 VALL-E + WavMark(16bit) 的 10.80%。
在遭受兩次重新拼接攻擊後,TraceableSpeech(4@10) 的浮水印提取準確率仍然保持在 100%,而基線模型 VALL-E + WavMark(16bit) 的提取準確率下降至 76.65%。
即使在嵌入 4 位元組 base-64 浮水印到 0.3 秒的語音片段中,TraceableSpeech 的浮水印提取準確率仍然超過 95%。
Citat
"These methods usually use neural codec [4, 5] to extract discrete representation from waveform and put them into language models for training."
"However, embedding watermarks into generated speech through the above frameworks to achieve proactive traceability in TTS still has some limitations."
"To address these issues, we propose a proactively traceable TTS model named TraceableSpeech."
"Experimental results show that TraceableSpeech outperforms the strong baseline where VALL-E or HiFicodec individually uses WavMark in watermark imperceptibility, speech quality and resilience against resplicing attacks."