Concepts de base
エミラティ人のバイリンガル音声データセット「Mixat」を紹介し、既存の音声認識モデルの性能評価を行った。
Résumé
本論文では、エミラティ人のバイリンガル音声データセット「Mixat」を紹介している。
- データセットは、エミラティ人のポッドキャストから収集した約15時間の音声データで構成される。
- データには、エミラティ方言と英語の code-switching が含まれている。
- 既存の音声認識モデル(Whisper、MMS、ArTST)を用いて評価したところ、いずれのモデルも低資源のエミラティ方言に対して十分な性能を発揮できないことが示された。
- 特に、code-switching 部分の認識精度が低く、現在の音声認識技術ではエミラティ人のバイリンガル音声を適切に処理できないことが明らかになった。
- 本データセットは、低資源言語の音声認識や code-switching の処理に関する研究に活用できる。
Stats
エミラティ方言の単語数: 3,266
英語の単語数: 103
code-switching 含む文の数: 1,947
code-switching 含む文の平均 CMI: 0.11
Citations
"Code-switching (CS), or code-mixing1, refer to the linguistic behavior of alternating between languages within a conversation or an utterance, which is common in multi-cultural, multi-lingual communities."
"In the United Arab Emirates (UAE), where Arabic is the primary local language and English is a widely spoken second language, code-switching and code-mixing have become observable and significant aspects of daily communication (Siemund et al., 2021)."