Core Concepts
에미리트 원어민 화자의 아랍어와 영어 혼용 음성 데이터셋 Mixat를 소개하고, 기존 음성 인식 모델의 성능을 평가한다.
Abstract
이 논문은 에미리트 아랍어와 영어의 혼용 음성 데이터셋 Mixat를 소개한다. Mixat는 에미리트 화자의 음성 데이터를 수집하고 주석 처리한 것으로, 에미리트 아랍어와 영어의 혼용 현상을 잘 반영하고 있다.
데이터셋 구축 과정에서는 두 개의 에미리트 팟캐스트에서 총 15시간의 음성 데이터를 수집하고, 아랍어와 영어 전사를 수행했다. 전체 5,316개의 발화 중 36%인 1,947개의 발화에서 언어 혼용이 관찰되었다.
또한 기존의 아랍어 및 다국어 음성 인식 모델(Whisper, MMS, ArTST)을 이 데이터셋에 적용하여 성능을 평가했다. 실험 결과, 이 모델들은 에미리트 아랍어 음성 인식에 어려움을 겪는 것으로 나타났다. 특히 언어 혼용 부분의 인식 성능이 매우 낮았다.
이 데이터셋은 에미리트 아랍어와 영어 혼용 음성 처리 연구를 위해 공개될 예정이다.
Stats
총 15시간의 음성 데이터
5,316개의 발화로 구성
1,947개(36%)의 발화에서 언어 혼용 관찰
언어 혼용 발화의 평균 CMI(Code Mixing Index) 0.11
Quotes
"에미리트에서는 아랍어가 주요 언어이지만 영어도 널리 사용되며, 특히 젊은 에미리트 세대 사이에서 아랍어와 영어의 혼용이 일반적인 현상이 되었다."
"현재 에미리트 방언을 대상으로 한 음성 및 언어 자원이 부족하며, 다른 아랍어 방언으로 훈련된 음성 인식 모델은 에미리트 음성에 잘 적용되지 않는다."