구축된 코드 전환 데이터를 활용하여 단일 LLM에서 다국어 음성 생성 및 인식 작업을 통합하고 성능을 향상시킬 수 있다.
IPA 기반 다국어 음성 처리 모델인 CLAP-IPA와 IPA-ALIGNER를 통해 언어에 구애받지 않고 강력한 성능의 키워드 탐지와 강제 정렬을 달성할 수 있다.
사하라 이남 아프리카 지역의 21개 언어와 방언으로 구성된 약 60,000시간의 음성 데이터로 사전 학습된 다국어 음성 모델을 제안한다. 이 모델은 기존 다국어 음성 모델보다 적은 데이터와 파라미터로도 사하라 이남 아프리카 언어에 대한 우수한 성능을 보인다.
본 연구는 자기 지도 학습 음성 인코더의 코드 전환 능력을 직접적으로 평가하기 위한 제로 리소스 코드 전환 음성 벤치마크를 제안한다. 실험 결과는 기존 다국어 음성 인코더들이 코드 전환 시나리오에서 여전히 개선의 여지가 많다는 것을 보여준다.