이 연구는 30개의 아프리카 언어를 대상으로 뉴스 토픽 분류, 감성 분류, 기계 번역, 질문 답변, 개체명 인식 등 5가지 NLP 작업에서 3개의 대규모 언어 모델(mT0, LLaMa 2, GPT-4)의 성능을 평가했다.
주요 결과는 다음과 같다:
대규모 언어 모델은 아프리카 언어에 대해 전반적으로 낮은 성능을 보였으며, 고자원 언어와 비교하여 큰 격차가 존재한다.
GPT-4는 분류 작업에서 80% 이상의 성능을 보였지만, 기계 번역 등 생성 작업에서는 성능이 매우 낮았다.
mT0는 질문 답변 작업에서 가장 좋은 성능을 보였으며, 최신 감독 모델(fine-tuned mT5)보다 우수한 성과를 달성했다.
LLaMa 2는 제한적인 다국어 기능으로 인해 전반적으로 가장 낮은 성능을 보였다.
이 연구 결과는 대규모 언어 모델의 개발 과정에서 아프리카 언어의 포함이 필요함을 시사한다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania