Core Concepts
본 연구는 병렬 추정 구조와 위상 펴기 손실 함수를 이용하여 진폭 스펙트럼으로부터 직접 포장된 위상 스펙트럼을 예측하는 새로운 신경망 기반 음성 위상 예측 모델을 제안한다. 이를 통해 높은 예측 정확도, 효율성 및 강건성을 달성하였다.
Abstract
본 연구는 신경망 기반 음성 위상 예측 모델을 제안한다. 주요 내용은 다음과 같다:
병렬 추정 구조: 이 구조는 두 개의 병렬 선형 합성곱 층과 위상 계산 공식으로 구성되어 있다. 이를 통해 예측된 위상 값을 주기값 구간 내로 엄격히 제한할 수 있다.
위상 펴기 손실 함수: 위상의 주기성과 펴기 특성으로 인해 발생하는 오차 확대 문제를 해결하기 위해 순간 위상 오차, 군지연 오차, 순간 각속도 오차를 활성화하는 위상 펴기 손실 함수를 제안하였다.
저지연 스트리밍 추론: 인과적 합성곱과 지식 증류 훈련 전략을 통해 저지연 스트리밍 위상 예측을 달성하였다.
실험 결과, 제안 모델은 기존 반복적 위상 추정 알고리즘과 신경망 기반 위상 예측 방법에 비해 위상 예측 정확도, 효율성 및 강건성이 우수하다. 또한 HiFi-GAN 기반 파형 재구성 방법과 비교해서도 합성 음질을 유지하면서 효율성 측면에서 뛰어난 성능을 보였다.
Stats
제안 모델은 19.6배 실시간 생성 속도를 달성하였다.
제안 모델의 순간 위상 오차는 1.479로 가장 낮았다.
제안 모델의 군지연 오차와 순간 각속도 오차는 각각 0.297과 0.694로 가장 낮았다.
Quotes
"본 연구는 신경망만을 이용하여 진폭 스펙트럼으로부터 직접 포장된 위상 스펙트럼을 예측하는 것을 최초로 시도하였다."
"제안 모델은 높은 예측 정확도, 효율성 및 강건성을 달성하였다."
"제안 모델은 HiFi-GAN 기반 파형 재구성 방법에 비해 효율성 측면에서 뛰어난 성능을 보였다."