Core Concepts
本研究は、アラビア語(現代標準アラビア語、湾岸アラビア語、エジプト・アラビア語)と英語を含む多言語多方言の音声コーパス「ZAEBUC-Spoken」を構築し、その特徴を分析したものである。
Abstract
本研究は、多言語多方言の音声コーパス「ZAEBUC-Spoken」の構築と分析を行ったものである。
コーパスの収集:
Zoomミーティングを通じて収集された12時間の音声データ
学生2名とインタロキューター1名が参加し、様々なトピックについて議論
4つのフェーズで構成され、言語設定が異なる
アラビア語(現代標準アラビア語、湾岸アラビア語、エジプト・アラビア語)と英語が使用され、コードスイッチングも見られる
トランスクリプション:
会話の特徴(繰り返し、中断など)、コードスイッチング、正書法などを考慮したガイドラインに基づいてトランスクリプションを作成
アラビア語はCODA(Conventional Orthography for Dialectal Arabic)に従って表記
分析:
アラビア語-英語のコードスイッチングの分析
コード混合指数(CMI)、スイッチポイント割合(SPF)、英語語彙の割合を算出
形態論的なコードスイッチングも分析
アラビア語方言レベルの分析
現代標準アラビア語からの逸脱度を5段階で注釈付け
自動形態素解析の結果を分析
トークン化、品詞タグ付け、基本形の抽出
Stats
平均発話長は7.2秒、平均トークン数は17.7
コードスイッチング発話の44.0%が英語語彙
コードスイッチング発話のCMIは0.20、SPFは0.20
アラビア語単語の78.7%が1形態素、19.8%が2形態素