Grunnleggende konsepter
TraceableSpeech라는 새로운 TTS 모델은 워터마킹 기술을 음성 합성 시스템에 통합하여 생성된 음성의 출처를 추적하고 오용을 방지합니다.
Sammendrag
TraceableSpeech: 워터마킹을 통한 사전 추적 가능한 텍스트 음성 변환
이 연구 논문에서는 텍스트 음성 변환(TTS) 시스템에서 제기되는 윤리적 및 보안적 문제를 해결하기 위해 고안된 새로운 TTS 모델인 TraceableSpeech를 소개합니다. 저자는 TTS 기술의 발전으로 인해 점점 더 현실적인 합성 음성이 생성되어 딥페이크 오디오 사기 및 저작권 침해와 같은 악의적인 목적으로 사용될 가능성이 있다고 주장합니다. 이러한 문제를 해결하기 위해 TraceableSpeech는 생성된 음성에 워터마크를 통합하여 사전 예방적 추적 기능을 제공합니다.
TraceableSpeech는 신경 코덱과 언어 모델이라는 두 가지 주요 구성 요소로 구성됩니다.
신경 코덱
HiFiCodec에서 영감을 받은 음성 인코더와 디코더를 사용합니다.
인코더는 음성 파형을 고차원 잠재 표현으로 변환합니다.
워터마크 정보는 "각인" 모듈을 통해 잠재 표현에 포함됩니다.
디코더는 워터마크된 음성을 생성합니다.
워터마크 디코더와 판별기를 사용하여 워터마킹과 코덱의 종단 간 학습을 수행합니다.
언어 모델
VALL-E와 동일한 구조를 사용합니다.
음성 인코더에서 얻은 불연속 표현을 입력으로 받습니다.
추론 중에 각인 모듈은 언어 모델에서 예측된 불연속 표현에 워터마크 정보를 포함합니다.
음성 디코더는 워터마크된 음성을 합성합니다.
기존의 워터마킹 방법은 워터마크 벡터를 파형 길이와 일치하도록 선형 레이어를 통해 확장하여 시간적 유연성을 희생하고 시간 축을 따라 워터마크 정보의 불균일한 분포를 초래했습니다. 이러한 문제를 해결하기 위해 TraceableSpeech는 프레임 단위 각인을 사용합니다.
워터마크 정보는 프레임 수준 음성 기능에 포함됩니다.
시간 영역에서 브로드캐스팅하여 워터마크 정보를 제어합니다.
다양한 길이의 음성을 지원합니다.
음성의 모든 부분에 걸쳐 포함된 정보가 균일하고 포괄적이므로 재접합 공격으로 인한 손상을 방지합니다.