Core Concepts
本論文は、15の低リソース言語エチオピア語と英語の並列コーパス「EthioMT」を紹介し、4つの主要エチオピア語(アムハラ語、アファン・オロモ語、ソマリ語、ティグリニャ語)に対する機械翻訳のベンチマークを提示する。
Abstract
本論文は、低リソース言語エチオピア語の機械翻訳研究を促進するために、以下の取り組みを行っている:
15の低リソース言語エチオピア語と英語の並列コーパス「EthioMT」を作成した。
アムハラ語、アファン・オロモ語、ソマリ語、ティグリニャ語の4つの主要エチオピア語に対する初のベンチマークデータセットと実験結果を提示した。
新しいコーパスを使ってトランスフォーマーモデルと fine-tuning アプローチによる機械翻訳の性能を評価した。
トランスフォーマーモデルに比べ、多言語翻訳モデルの fine-tuning アプローチの方が優れた翻訳性能を示した。特に、大規模なデータセットを持つ言語(アムハラ語、アファン・オロモ語など)で顕著な改善が見られた。
低リソース言語の機械翻訳性能向上には、大規模な並列コーパスの構築が重要であることを示唆した。
Stats
アムハラ語は約5700万人が話す言語で、1.5Mの並列コーパスを持つ。
アファン・オロモ語は約3700万人が話す言語で、2.9Mの並列コーパスを持つ。
ソマリ語は約2230万人が話す言語で、1.2Mの並列コーパスを持つ。
ティグリニャ語は約900万人が話す言語で、140Kの並列コーパスを持つ。