이 논문은 음성 프라이버시 보호를 위한 새로운 메커니즘을 제안한다. 기존의 음성 변환 기술들은 화자 정보를 완전히 제거하거나 예측할 수 없는 방식으로 누출시키는 문제가 있었다.
제안하는 HFC-VP 시스템은 화자 정보와 다른 음성 특성을 분리하는 은닉 표현을 생성한다. 이 표현은 임의의 화자 임베딩과 결합되어 익명화된 음성을 생성한다. 이를 통해 화자 정보 누출을 최소화하면서도 음성 특성을 잘 유지할 수 있다.
HFC-VP는 화자 식별 확률 분포와 사전 분포 간 상호 정보를 최소화하는 방식으로 학습된다. 이는 기존 HFC 모델과 달리 정보 이론적 접근법을 사용한다. 또한 RNN 기반 네트워크 대신 강력한 트랜스포머 인코더와 잔차 합성곱 네트워크를 사용한다.
실험 결과, HFC-VP는 기존 VPC 베이스라인 대비 우수한 화자 익명화 성능과 원본 음성 특성 유지 성능을 보여준다. 이를 통해 음성 프라이버시와 유용성 사이의 균형을 달성할 수 있음을 입증한다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések