본 논문에서는 소스-필터 메커니즘을 기반으로 하는 새로운 엔드투엔드 노래 음성 합성(SVS) 시스템인 SiFiSinger를 소개합니다. SiFiSinger는 가사 및 멜로디 큐를 표현력 있고 충실도 높은 인간과 유사한 노래로 직접 변환합니다. VISinger 2와 유사하게, 제안된 시스템은 VITS에서 발전된 학습 패러다임을 활용하고 기본 주파수(F0) 예측기 및 파형 생성 디코더와 같은 요소를 통합합니다.
기존의 노래 음성 합성 시스템인 VISinger 2는 멜-스펙트로그램 특징과 F0 정보의 결합으로 인해 F0 예측 중 오류가 발생하고, DDSP 합성기가 텍스트-위상 모델링을 완화하는 데 도움이 되지만 사전 숨겨진 벡터 예측 및 후속 오디오 파형 생성에서 F0 정보를 일관되고 직접적으로 활용하지 못하는 문제가 있습니다.
SiFiSinger는 이러한 문제를 해결하기 위해 다음과 같은 특징을 가지고 있습니다.
Opencpop 데이터 세트에 대한 실험 결과, SiFiSinger는 합성 품질 및 억양 정확도 측면에서 VISinger 2보다 우수한 성능을 보였습니다. 객관적인 평가 지표인 F0 RMSE, Mel RMSE, F0 Corr, V/UV 오류율 모두에서 향상된 결과를 나타냈으며, 주관적인 평가에서도 MOS 점수가 VISinger 2보다 높게 나타났습니다.
SiFiSinger는 소스-필터 메커니즘과 차별화 가능한 재구성 손실을 활용하여 기존 시스템의 문제점을 해결하고 향상된 음질과 음높이 정확도를 제공하는 혁신적인 노래 음성 합성 시스템입니다.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Jianwei Cui,... klo arxiv.org 10-17-2024
https://arxiv.org/pdf/2410.12536.pdfSyvällisempiä Kysymyksiä