核心概念
SiFiSinger는 음성 생성의 소스-필터 메커니즘을 기반으로 하는 새로운 엔드투엔드 노래 음성 합성 시스템으로, 향상된 음질과 정확한 음높이 제어 기능을 제공합니다.
要約
개요
본 논문에서는 소스-필터 메커니즘을 기반으로 하는 새로운 엔드투엔드 노래 음성 합성(SVS) 시스템인 SiFiSinger를 소개합니다. SiFiSinger는 가사 및 멜로디 큐를 표현력 있고 충실도 높은 인간과 유사한 노래로 직접 변환합니다. VISinger 2와 유사하게, 제안된 시스템은 VITS에서 발전된 학습 패러다임을 활용하고 기본 주파수(F0) 예측기 및 파형 생성 디코더와 같은 요소를 통합합니다.
기존 시스템의 문제점
기존의 노래 음성 합성 시스템인 VISinger 2는 멜-스펙트로그램 특징과 F0 정보의 결합으로 인해 F0 예측 중 오류가 발생하고, DDSP 합성기가 텍스트-위상 모델링을 완화하는 데 도움이 되지만 사전 숨겨진 벡터 예측 및 후속 오디오 파형 생성에서 F0 정보를 일관되고 직접적으로 활용하지 못하는 문제가 있습니다.
SiFiSinger의 주요 특징
SiFiSinger는 이러한 문제를 해결하기 위해 다음과 같은 특징을 가지고 있습니다.
- 소스 모듈: F0 시퀀스를 사용하여 사인파 여기를 생성하고, 고조파 오버톤을 생성하여 음높이 정확도와 자연스러움을 향상시킵니다.
- 멜-켑스트럼(mcep) 특징: F0 및 위상 정보와 분리된 스펙트럼 엔벨로프 정보를 캡처하여 F0 모델링의 편향이 멜-스펙트로그램의 예측 정확도에 미치는 영향을 최소화합니다.
- 차별화 가능한 mcep 및 F0 손실: 생성된 음성에서 음성 엔벨로프 및 음높이의 예측 정확도를 강화하기 위해 파형 디코더 감독으로 사용됩니다.
실험 결과
Opencpop 데이터 세트에 대한 실험 결과, SiFiSinger는 합성 품질 및 억양 정확도 측면에서 VISinger 2보다 우수한 성능을 보였습니다. 객관적인 평가 지표인 F0 RMSE, Mel RMSE, F0 Corr, V/UV 오류율 모두에서 향상된 결과를 나타냈으며, 주관적인 평가에서도 MOS 점수가 VISinger 2보다 높게 나타났습니다.
결론
SiFiSinger는 소스-필터 메커니즘과 차별화 가능한 재구성 손실을 활용하여 기존 시스템의 문제점을 해결하고 향상된 음질과 음높이 정확도를 제공하는 혁신적인 노래 음성 합성 시스템입니다.
統計
Opencpop 데이터 세트는 100곡의 중국어 노래를 포함하며, 전문 여성 가수가 노래했습니다.
데이터 세트는 총 3,756개의 발화와 약 5.2시간 분량입니다.
SiFiSinger는 VISinger 2보다 모델 매개변수가 적습니다.
SiFiSinger는 80차원 mcep 특징을 사용합니다.
HiFi-GAN 생성기는 [8, 8, 4, 2]의 업샘플링 비율과 [16, 16, 8, 4]의 업샘플링 커널 크기를 사용합니다.
모든 모델은 배치 크기 16으로 500k 단계 동안 학습되었습니다.
引用
"This approach helps alleviate the text-to-phase issue and enhances the modeling capability of the system."
"Experiments demonstrate that SiFiSinger exhibits better synthesized audio quality and pitch accuracy than VISinger 2."