Concetti Chiave
大規模言語モデルはアフリカ言語においてパフォーマンスが低く、高資源言語との大きな差がある。
Sintesi
本論文は、大規模言語モデル(mT0、LLaMa 2、GPT-4)のアフリカ言語における性能を5つのタスク(ニューストピック分類、感情分類、機械翻訳、質問応答、固有表現抽出)で評価したものである。
結果は以下の通り:
- 大規模言語モデルはアフリカ言語で全体的に低パフォーマンスを示し、高資源言語との大きな差がある。
- GPT-4は分類タスクでは平均的または優れた性能を示すが、機械翻訳などの生成タスクでは非常に低い結果となった。
- 意外なことに、mT0は cross-lingual QAタスクで最も良い結果を示し、fine-tuned mT5よりも優れていた。
- LLaMa 2は多言語対応が限定的で英語中心のプリトレーニングデータのため、最も低い性能を示した。
- 全体として、大規模言語モデルのアフリカ言語への適用には課題があり、これらの言語をより適切に表現するための取り組みが必要であることが示唆された。
Statistiche
高資源言語(英語、フランス語)のニューストピック分類タスクでは、GPT-4が最高モデルの80%以上の性能を示した。
高資源言語の機械翻訳タスクでは、GPT-4がM2M-100モデルを上回る性能を示したが、アフリカ言語の平均性能と比べると大幅に低かった。
mT0は cross-lingual QAタスクで最も良い結果を示し、fine-tuned mT5よりも優れていた。