本研究では、中央クルド語のサブ方言に焦点を当て、映画やテレビシリーズからコーパスを作成し、機械翻訳や自動音声認識などの下流タスクのパフォーマンスを評価。CORDIというコーパスは、6つの主要なクルド都市のサブ方言に関する18万6038文を含んでいる。実験結果は、既存モデルがサブ方言で評価された際に劣ったパフォーマンスを示しており、非標準的なNLPへの取り組みが必要であることが明らかになっている。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Sina Ahmadi,... at arxiv.org 03-05-2024
https://arxiv.org/pdf/2403.01983.pdfDeeper Inquiries