本研究では、中央クルド語のサブ方言に焦点を当て、映画やテレビシリーズからコーパスを作成し、機械翻訳や自動音声認識などの下流タスクのパフォーマンスを評価。CORDIというコーパスは、6つの主要なクルド都市のサブ方言に関する18万6038文を含んでいる。実験結果は、既存モデルがサブ方言で評価された際に劣ったパフォーマンスを示しており、非標準的なNLPへの取り組みが必要であることが明らかになっている。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Sina Ahmadi,... kl. arxiv.org 03-05-2024
https://arxiv.org/pdf/2403.01983.pdfDybere Forespørgsler