Core Concepts
クルド方言の多様性に焦点を当て、中央クルド語のサブ方言に対する言語と音声技術のリソース開発を進める。
Abstract
本研究では、中央クルド語のサブ方言に焦点を当て、映画やテレビシリーズからコーパスを作成し、機械翻訳や自動音声認識などの下流タスクのパフォーマンスを評価。CORDIというコーパスは、6つの主要なクルド都市のサブ方言に関する18万6038文を含んでいる。実験結果は、既存モデルがサブ方言で評価された際に劣ったパフォーマンスを示しており、非標準的なNLPへの取り組みが必要であることが明らかになっている。
Quotes
"CORDIは中央クルド語のサブ方言に焦点を当てた初めてのコーパスです。"
"既存モデルはサブ方言で評価された際に劣ったパフォーマンスを示しています。"