본 논문에서는 Flow Matching 기반의 Diffusion Transformer를 활용하여, 음성 프롬프트와 텍스트 프롬프트를 기반으로 자연스럽고 충실한 음성 합성을 가능하게 하는 비자기회귀 TTS 시스템인 F5-TTS를 제안합니다.
FastPitch 모델을 기반으로 다양한 학습 전략을 통해 자연스러운 루마니아어 음성 합성 및 화자 적응 기능을 구현하고, 익명 화자 기능을 도입하여 화자 정보 없이 텍스트 콘텐츠만으로 의미 전달이 가능한지 실험 및 분석하였다.
MaskGCT는 텍스트-음성 정렬 감독이나 음소 수준 기간 예측 없이 마스크 생성 코덱 트랜스포머를 활용하여 제로샷 텍스트 음성 합성을 달성하는 새로운 TTS 시스템입니다.
본 논문에서는 DiffWave 프레임워크를 사용하여 아기 울음 소리와 같은 비음성 발성을 사실적으로 생성하는 방법을 제시합니다.
인도 언어의 음성적, 언어적 유사성을 활용하여 제로샷 음성 합성과 자연스러운 코드 혼합 및 전환 음성 합성을 가능하게 하는 Common Label Set(CLS) 기반 시스템.
본 논문에서는 음성-음성 모델의 강세 보존 능력을 평가하기 위한 자동화된 벤치마크인 EmphAssess를 소개하고, 특히 영어-영어 및 영어-스페인어 모델에 대한 결과를 제시합니다.
DMDSpeech는 직접 지표 최적화를 통해 제로샷 음성 합성에서 최첨단 성능을 달성하는 증류 확산 기반 모델입니다.
본 논문에서는 다단계 변분 오토인코더(ML-VAE)와 벡터 양자화(VQ)를 결합하여 음성 합성에서 발음과 화자 표현을 효과적으로 분리하는 새로운 TTS 모델인 DART를 제안합니다.
인간의 발성 기관의 움직임을 모방한 음성 관절 코딩(SPARC) 프레임워크는 음성의 생성 및 인식에 대한 새로운 접근 방식을 제시하며, 자연스럽고 제어 가능한 방식으로 음성을 표현하고 합성할 수 있도록 합니다.
본 논문에서는 음성 합성을 위한 엔드 투 엔드 학습 가능한 시간-변화 선형 예측 (LP) 방법을 제안하며, 이를 통해 기존 프레임 기반 LP의 한계를 극복하고 보다 자연스럽고 고품질의 음성 합성을 가능하게 합니다.