核心概念
구축된 코드 전환 데이터를 활용하여 단일 LLM에서 다국어 음성 생성 및 인식 작업을 통합하고 성능을 향상시킬 수 있다.
要約
이 논문에서는 다국어 음성 생성과 인식 작업을 단일 LLM에 통합하는 MLMT 모델을 제안한다. 또한 고품질 코드 전환 데이터에 의존하지 않고도 LLM의 코드 전환 음성 합성 능력을 향상시킬 수 있는 효과적인 데이터 구축 방법을 개발했다.
실험 결과, MLMT 모델은 기준선 모델들보다 우수한 성능을 보였다. 제안한 데이터 구축 방법은 LLM의 코드 전환 음성 합성 능력을 향상시킬 뿐만 아니라 다국어 음성 인식 및 생성 작업의 성능도 개선했다.
統計
제안한 MLMT 모델은 기준선 모델들에 비해 영어 ASR에서 최대 67.31%, 영어 TTS에서 최대 82.97%의 WER 감소를 달성했다.
코드 전환 음성 합성 작업에서 제안 모델은 기준선 대비 자연스러움과 명료성이 향상되었다.
제안한 데이터 구축 방법은 LLM의 코드 전환 음성 합성 능력을 향상시킬 뿐만 아니라 다국어 ASR과 TTS 작업의 성능도 개선했다.
引用
"제안한 MLMT 모델은 기준선 모델들보다 우수한 성능을 보였다."
"제안한 데이터 구축 방법은 LLM의 코드 전환 음성 합성 능력을 향상시킬 뿐만 아니라 다국어 ASR과 TTS 작업의 성능도 개선했다."