PromptCodec은 기존 신경 음성 코덱 모델의 한계를 극복하기 위해 제안된 새로운 프레임워크입니다. 주요 특징은 다음과 같습니다:
기존 코덱 인코더에 Mel-Spectrogram 기반 조건부 프롬프트 인코더와 사전 학습된 FBank 기반 음성 프린트 프롬프트 인코더를 추가하여 압축 정보를 분산시키고 인코더 성능을 향상시킵니다.
코사인 거리 기반의 새로운 분리된 표현 학습 기법을 제안하여 인코더의 효율성을 보장합니다.
적응형 특징 가중 융합 기법을 도입하여 서로 다른 인코더의 특징을 효과적으로 통합합니다.
실험 결과, PromptCodec은 기존 최신 신경 음성 코덱 모델들에 비해 모든 평가 지표에서 우수한 성능을 보였습니다. 특히 고압축률 환경에서 두드러진 성능 향상을 보였는데, 예를 들어 1개의 코드북을 사용할 때 PESQ 65.1%, STOI 9.7% 향상, MCD 34.2% 감소를 달성했습니다.
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Yu Pan,Lei M... om arxiv.org 04-04-2024
https://arxiv.org/pdf/2404.02702.pdfDiepere vragen