Concepts de base
본 연구는 소프트 음성 유닛과 적대적 스타일 증강을 활용하여 표현력 있는 음성 변환을 실현하는 새로운 프레임워크를 제안한다. 이를 통해 화자 독립적인 내용 및 운율 특징을 효과적으로 추출할 수 있다.
Résumé
본 연구는 음성 변환 작업을 위한 새로운 프레임워크인 "SAVC"를 제안한다. SAVC는 HuBert-Soft에서 추출한 소프트 음성 유닛을 입력으로 사용하며, 속성 인코더를 통해 내용 및 운율 특징을 각각 추출한다.
특히, 적대적 스타일 증강을 통해 통계적 섭동을 가하여 화자 정보를 제거한다. 이를 통해 속성 인코더가 다양한 스타일 섭동에도 유사한 표현을 학습할 수 있도록 한다. 또한 지식 증류를 활용하여 운율 특징을 명시적으로 모델링한다.
실험 결과, 제안 모델은 기존 모델 대비 자연스러운 음질과 높은 화자 유사도를 보여준다. 특히 화자 독립적인 특징 추출과 운율 모델링 능력이 향상되어 표현력 있는 음성 변환 성능이 개선되었다.
Stats
제안 모델은 기존 모델 대비 Mel-Cepstral Distortion(MCD) 지표에서 더 낮은 값을 보여, 변환된 음성의 음질이 향상되었음을 나타낸다.
제안 모델은 Character Error Rate(CER) 지표에서 기존 모델과 유사한 수준의 지능성을 보여준다.
제안 모델은 Speaker Embedding Similarity(SES) 지표에서 더 높은 값을 보여, 타겟 화자와의 유사도가 향상되었음을 나타낸다.
Citations
"본 연구는 소프트 음성 유닛과 적대적 스타일 증강을 활용하여 표현력 있는 음성 변환을 실현하는 새로운 프레임워크를 제안한다."
"적대적 스타일 증강을 통해 통계적 섭동을 가하여 화자 정보를 제거하고, 지식 증류를 활용하여 운율 특징을 명시적으로 모델링한다."
"실험 결과, 제안 모델은 기존 모델 대비 자연스러운 음질과 높은 화자 유사도를 보여준다."