מושגי ליבה
본 논문에서는 음성 익명화 시스템의 프라이버시를 향상시키면서도 감정 및 내용 전달을 유지하는 것을 목표로, 2024 음성 프라이버시 챌린지에 제출된 시스템을 설명합니다.
תקציר
2024 음성 프라이버시 챌린지용 NTU-NPU 시스템 개요
본 문서는 2024 음성 프라이버시 챌린지에 제출된 NTU-NPU 시스템에 대한 연구 논문입니다.
본 연구는 음성 익명화 기술을 개선하여 화자의 신원 정보를 효과적으로 보호하면서도 음성의 감정 및 내용 전달 능력을 유지하는 것을 목표로 합니다.
연구진은 주최측에서 제공한 기본 시스템 B3 및 B5를 수정하여 시스템 성능을 향상시켰습니다.
수정된 B3 시스템
감정 임베딩을 FastSpeech2 모델에 추가 입력값으로 활용했습니다.
GST 모델 대신 WavLM 및 ECAPA2와 같은 다양한 화자 임베더를 사용했습니다.
익명화를 위한 화자 선택 전략 및 운율 조작과 관련된 실험을 수행했습니다.
수정된 B5 시스템
평균 회귀 F0 방법을 도입하여 F0의 동적 범위를 줄이고 익명성을 향상시켰습니다.
AWGN(Additive White Gaussian Noise)을 적용하여 EER을 높였습니다.
Disentanglement 기반 모델
ß-VAE 및 NaturalSpeech3 FACodec과 같은 disentanglement 기반 모델을 실험하여 음성에서 화자 관련 정보를 제거하는 데 활용했습니다.