核心概念
본 논문에서는 음성 합성을 위한 엔드 투 엔드 학습 가능한 시간-변화 선형 예측 (LP) 방법을 제안하며, 이를 통해 기존 프레임 기반 LP의 한계를 극복하고 보다 자연스럽고 고품질의 음성 합성을 가능하게 합니다.
要約
GOLF 보코더 기반 미분 가능 시간-변화 선형 예측
본 논문에서는 엔드 투 엔드 분석-합성 맥락에서 미분 가능 시간-변화 선형 예측 (LP)에 대해 다룹니다. 저자들은 기존의 심층 학습 프레임워크에서 선형 예측 (LP) 연산자를 엔드 투 엔드 방식으로 학습시키는 것이 재귀적 공식으로 인해 느리다는 점을 지적합니다. 또한, 프레임별 근사는 가속 방법으로 사용되지만 LP가 샘플별로 계산되는 테스트 시간 조건으로 잘 일반화될 수 없습니다. 따라서 엔드 투 엔드 학습을 위한 효율적인 미분 가능 샘플별 LP가 이러한 한계를 제거하는 데 중요합니다.
시간-불변 LP에서 시간-변화 LP로 일반화: GOLF 보코더의 효율적인 시간-불변 LP 구현을 시간-변화 케이스로 일반화합니다.
고전적인 소스-필터 모델과의 결합: 기존의 HpN 모델 대신 소스-필터 모델을 사용하여 모델의 설명력을 높이고 학습 안정성을 향상시킵니다.
저자들은 VCTK 데이터셋을 사용하여 제안된 방법을 평가하고, 다음과 같은 결과를 확인했습니다.
객관적 평가: 제안된 방법은 MSS, MCD, PESQ, FAD와 같은 객관적인 지표에서 기존 방법보다 우수한 성능을 보입니다.
스펙트럼 분석: 제안된 방법은 프레임별 LP 근사 방식보다 부드러운 포먼트 전환을 보여줍니다.
주관적 평가: MUSHRA 청취 테스트 결과, 제안된 방법은 다른 최신 방법들보다 높은 음질 평가를 받았습니다.