本論文では、IgboAPI プロジェクトについて紹介し、IgboAPI データセットの作成プロセスと特徴を説明する。IgboAPI データセットは、Igbo 言語の33の方言を網羅する多言語の Igbo-英語辞書データセットである。データセットには5,095の Igbo 語彙、17,979の方言バリエーション、27,816の例文が含まれている。
IgboAPI データセットの有用性を示すため、2つの実験を行った。1つは Igbo 言語の意味論的レキシコンの構築、もう1つは機械翻訳システムの改善である。意味論的レキシコンの構築では、IgboAPI データセットの英語定義を活用して、自動的にIgbo 語彙の意味タグ付けを行った。機械翻訳の実験では、IgboAPI データセットを使ってファインチューニングすることで、既存の機械翻訳モデルの方言理解能力が大幅に向上した。
全体として、IgboAPI データセットは Igbo 言語テクノロジーの開発において重要な役割を果たすことが示された。この多言語辞書データセットは、Igbo 言語の多様性を反映し、言語資源の構築や自然言語処理タスクの改善に活用できる。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Chris Chinen... kl. arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.00997.pdfDybere Forespørgsler