Core Concepts
ZAEBUC-Spoken은 다국어 다방언 아랍어-영어 음성 코퍼스로, 다양한 언어와 방언이 혼재되어 있어 자동 음성 인식에 도전적인 데이터셋을 제공한다.
Abstract
ZAEBUC-Spoken은 다국어 다방언 아랍어-영어 음성 코퍼스이다. 이 코퍼스는 Zoom 회의를 통해 수집되었으며, 학생들이 특정 주제에 대해 아이디어를 브레인스토밍하고 상위 관계자와 토론하는 상황을 연출하였다. 회의는 다양한 주제를 다루며, 언어 설정이 다른 여러 단계로 구성되어 있다. 이 코퍼스는 현대 표준 아랍어, 걸프 아랍어, 이집트 아랍어와 다양한 영어 억양을 포함하는 두 언어(아랍어와 영어)로 이루어져 있어 자동 음성 인식에 도전적인 데이터셋을 제공한다. 또한 이 언어들 간의 코드 스위칭도 포함되어 있다. 이 연구에서는 대화체 음성, 코드 스위칭, 두 언어의 정서법 문제를 다루는 전사 지침을 제시한다. 또한 이 코퍼스에 두 가지 주석을 추가하였다: (1) 아랍어 방언 간 코드 스위칭이 발생하는 부분에 대한 방언 수준 주석, (2) 토큰화, 표제어 추출, 품사 태깅을 포함하는 자동 형태소 주석.
Stats
다국어 코퍼스에는 총 94,101개의 토큰이 포함되어 있다.
코드 스위칭이 발생한 발화에서 영어 단어의 비율은 평균 44.0%이다.
아랍어-영어 코드 스위칭 발화에서 가장 일반적인 형태소 코드 스위칭 구조는 아랍어 정관사 'Al'과 영어 단어의 결합으로, 전체 코드 스위칭 구조의 78.5%를 차지한다.
Quotes
"ZAEBUC-Spoken 코퍼스는 다국어 다방언 아랍어-영어 음성 코퍼스로, 자동 음성 인식에 도전적인 데이터셋을 제공한다."
"이 연구에서는 대화체 음성, 코드 스위칭, 두 언어의 정서법 문제를 다루는 전사 지침을 제시한다."
"이 코퍼스에는 아랍어 방언 간 코드 스위칭이 발생하는 부분에 대한 방언 수준 주석과 자동 형태소 주석이 포함되어 있다."