Concepts de base
제한된 데이터 환경에서 생성적 적대 신경망 기반 보코더의 성능을 향상시키기 위해 데이터 증강 기법과 증강-조건부 판별기를 제안하였다.
Résumé
이 논문은 생성적 적대 신경망(GAN) 기반 보코더의 성능을 제한된 데이터 환경에서 향상시키는 방법을 제안한다.
- 보코더는 음성 합성에서 빠르고 가벼우며 고품질의 특성을 가지지만, 많은 양의 학습 데이터가 필요하다는 한계가 있다.
- 이를 해결하기 위해 데이터 증강 기법을 활용하여 학습 데이터를 확장하는 방법이 제안되었다.
- 그러나 표준 판별기는 데이터 증강 상태에 무관하기 때문에, 증강된 음성이 실제 음성으로 간주될 수 있다는 문제가 있다.
- 이 논문에서는 증강-조건부 판별기(AugCondD)를 제안하여, 증강 상태를 입력으로 받아 증강된 음성을 실제 음성과 구분할 수 있도록 하였다.
- 실험 결과, AugCondD는 제한된 데이터 환경에서 음성 품질을 향상시키고, 충분한 데이터 환경에서도 기존 최고 모델과 유사한 성능을 달성하였다.
- 이 방법은 다양한 네트워크 구조, 데이터 증강 기법, 화자에 대해 일반적으로 효과적인 것으로 나타났다.
Stats
제한된 데이터(1%) 환경에서 AugCondD 모델은 다른 모델들에 비해 UTMOS, 주기성, cFW2VD 지표에서 더 좋은 성능을 보였다.
충분한 데이터(100%) 환경에서 AugCondD 모델은 기존 최고 모델과 유사한 성능을 보였다.
Citations
"A generative adversarial network (GAN)-based vocoder trained with an adversarial discriminator is commonly used for speech synthesis because of its fast, lightweight, and high-quality characteristics."
"However, this data-driven model requires a large amount of training data incurring high data-collection costs."
"To address this issue, we propose an augmentation-conditional discriminator (AugCondD) that receives the augmentation state as input in addition to speech, thereby assessing the input speech according to the augmentation state, without inhibiting the learning of the original non-augmented distribution."