Kernekoncepter
본 논문에서는 인간 청각 시스템에서 영감을 받은 손실 함수를 사용하여 음성 익명화를 위한 음성 변환 모델의 음성 품질을 향상시키는 방법을 제시합니다.
Resumé
지각 기반 손실만을 사용한 음성 익명화에서 음성 품질 향상
본 연구는 음성 익명화를 위한 음성 변환(VC)에서 생성된 음성의 품질을 향상시키는 것을 목표로 합니다. 특히, 복잡한 모델 아키텍처나 훈련 기법 대신 인간 청각 시스템에서 영감을 받은 손실 함수를 사용하여 음성 자연스러움, 명료도 및 운율을 개선하는 데 중점을 둡니다.
본 연구에서는 벡터 양자화 변분 자동 인코더(VQVAE) 기반 모델을 사용하여 음성 변환을 수행합니다. 연구진은 VQVAE 모델에 두 가지 유형의 지각 기반 손실 함수를 새롭게 도입했습니다.
수작업 특징 기반 손실: 음성의 스펙트럼 내용을 나타내는 포먼트를 기반으로 계산됩니다. 포먼트는 모음 소리의 특징을 정의하고 음성 인식 및 음성 요소 식별에 중요한 역할을 합니다.
표현 기반 손실: 딥러닝 모델의 중간 표현을 활용하여 음성 품질 평가에 중요한 음조, 운율, 선명도 및 배경 소음과 같은 다양한 음성 특징을 포착합니다. 본 연구에서는 MOS(평균 옵션 점수) 손실과 WavLM 손실, 두 가지 유형의 표현 기반 손실을 사용합니다.