이 연구는 30개의 아프리카 언어를 대상으로 뉴스 토픽 분류, 감성 분류, 기계 번역, 질문 답변, 개체명 인식 등 5가지 NLP 작업에서 3개의 대규모 언어 모델(mT0, LLaMa 2, GPT-4)의 성능을 평가했다.
주요 결과는 다음과 같다:
대규모 언어 모델은 아프리카 언어에 대해 전반적으로 낮은 성능을 보였으며, 고자원 언어와 비교하여 큰 격차가 존재한다.
GPT-4는 분류 작업에서 80% 이상의 성능을 보였지만, 기계 번역 등 생성 작업에서는 성능이 매우 낮았다.
mT0는 질문 답변 작업에서 가장 좋은 성능을 보였으며, 최신 감독 모델(fine-tuned mT5)보다 우수한 성과를 달성했다.
LLaMa 2는 제한적인 다국어 기능으로 인해 전반적으로 가장 낮은 성능을 보였다.
이 연구 결과는 대규모 언어 모델의 개발 과정에서 아프리카 언어의 포함이 필요함을 시사한다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jessica Ojo,... lúc arxiv.org 05-01-2024
https://arxiv.org/pdf/2311.07978.pdfYêu cầu sâu hơn