이 연구에서는 다국어 음성 처리 시스템의 범언어적 일반화 가능성을 보여주기 위해 IPA 기반 모델을 제안했다. 먼저 115개 언어로 구성된 대규모 다국어 음성 데이터셋 IPAPACK을 구축했다. 이를 바탕으로 CLAP-IPA와 IPA-ALIGNER 모델을 개발했다.
CLAP-IPA는 음소 기반 다국어 음성-텍스트 대조 학습 모델로, 95개 미학습 언어에서 강력한 범언어적 일반화 성능을 보였다. 특히 텍스트 기반 모델에 비해 월등한 성능을 보였는데, 이는 언어 간 지식 전이가 용이한 음소 표현의 장점 때문이다.
IPA-ALIGNER는 CLAP-IPA를 미세 조정하여 강제 정렬 성능을 높였다. 실험 결과, IPA-ALIGNER는 기존 HMM 기반 모델과 견줄만한 성능을 보였으며, 학습되지 않은 언어에서도 우수한 일반화 성능을 보였다.
이 연구는 IPA 기반 모델링이 다국어 음성 처리 과제에서 강력한 성능과 일반화 능력을 제공한다는 것을 보여준다. 또한 언어 간 지식 전이 측면에서 음소 표현이 텍스트 표현보다 효과적임을 확인했다. 이를 통해 소수 언어나 저자원 언어에서도 우수한 성능의 음성 처리 시스템을 구축할 수 있을 것으로 기대된다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Jian Zhu,Cha... في arxiv.org 04-03-2024
https://arxiv.org/pdf/2311.08323.pdfاستفسارات أعمق