본 논문에서는 소스-필터 메커니즘을 기반으로 하는 새로운 엔드투엔드 노래 음성 합성(SVS) 시스템인 SiFiSinger를 소개합니다. SiFiSinger는 가사 및 멜로디 큐를 표현력 있고 충실도 높은 인간과 유사한 노래로 직접 변환합니다. VISinger 2와 유사하게, 제안된 시스템은 VITS에서 발전된 학습 패러다임을 활용하고 기본 주파수(F0) 예측기 및 파형 생성 디코더와 같은 요소를 통합합니다.
기존의 노래 음성 합성 시스템인 VISinger 2는 멜-스펙트로그램 특징과 F0 정보의 결합으로 인해 F0 예측 중 오류가 발생하고, DDSP 합성기가 텍스트-위상 모델링을 완화하는 데 도움이 되지만 사전 숨겨진 벡터 예측 및 후속 오디오 파형 생성에서 F0 정보를 일관되고 직접적으로 활용하지 못하는 문제가 있습니다.
SiFiSinger는 이러한 문제를 해결하기 위해 다음과 같은 특징을 가지고 있습니다.
Opencpop 데이터 세트에 대한 실험 결과, SiFiSinger는 합성 품질 및 억양 정확도 측면에서 VISinger 2보다 우수한 성능을 보였습니다. 객관적인 평가 지표인 F0 RMSE, Mel RMSE, F0 Corr, V/UV 오류율 모두에서 향상된 결과를 나타냈으며, 주관적인 평가에서도 MOS 점수가 VISinger 2보다 높게 나타났습니다.
SiFiSinger는 소스-필터 메커니즘과 차별화 가능한 재구성 손실을 활용하여 기존 시스템의 문제점을 해결하고 향상된 음질과 음높이 정확도를 제공하는 혁신적인 노래 음성 합성 시스템입니다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Jianwei Cui,... о arxiv.org 10-17-2024
https://arxiv.org/pdf/2410.12536.pdfГлибші Запити