Główne pojęcia
MaskGCT는 텍스트-음성 정렬 감독이나 음소 수준 기간 예측 없이 마스크 생성 코덱 트랜스포머를 활용하여 제로샷 텍스트 음성 합성을 달성하는 새로운 TTS 시스템입니다.
Streszczenie
MaskGCT: 마스크 생성 코덱 트랜스포머를 활용한 제로샷 음성 합성 연구 논문 요약
Yuancheng Wang, Haoyue Zhan, Liwei Liu, Ruihong Zeng, Haotian Guo, Jiachen Zheng, Qiang Zhang, Xueyao Zhang, Shunsi Zhang, Zhizheng Wu. (2024). MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer. arXiv preprint arXiv:2409.00750v2.
본 연구는 텍스트-음성 정렬 감독이나 음소 수준 기간 예측 없이 자연스럽고 고품질의 음성을 생성할 수 있는 제로샷 텍스트 음성 합성(TTS) 시스템을 개발하는 것을 목표로 합니다.