מושגי ליבה
IgboAPI データセットは、Igbo 言語の多様な方言を網羅し、Igbo 言語テクノロジーの開発を促進する。
תקציר
本論文では、IgboAPI プロジェクトについて紹介し、IgboAPI データセットの作成プロセスと特徴を説明する。IgboAPI データセットは、Igbo 言語の33の方言を網羅する多言語の Igbo-英語辞書データセットである。データセットには5,095の Igbo 語彙、17,979の方言バリエーション、27,816の例文が含まれている。
IgboAPI データセットの有用性を示すため、2つの実験を行った。1つは Igbo 言語の意味論的レキシコンの構築、もう1つは機械翻訳システムの改善である。意味論的レキシコンの構築では、IgboAPI データセットの英語定義を活用して、自動的にIgbo 語彙の意味タグ付けを行った。機械翻訳の実験では、IgboAPI データセットを使ってファインチューニングすることで、既存の機械翻訳モデルの方言理解能力が大幅に向上した。
全体として、IgboAPI データセットは Igbo 言語テクノロジーの開発において重要な役割を果たすことが示された。この多言語辞書データセットは、Igbo 言語の多様性を反映し、言語資源の構築や自然言語処理タスクの改善に活用できる。
סטטיסטיקה
Igbo 語彙5,095語
方言バリエーション17,979語
例文27,816文
ציטוטים
"Igbo 言語は2025年までに絶滅する危険性がある"
"Igbo 言語の多様な方言を包括的に扱うことが、ロバストで影響力のある言語テクノロジーの開発に不可欠である"