이 논문은 다음과 같은 내용을 다룹니다:
대규모 언어 모델(LLM)의 최근 발전과 저자원 언어에 대한 과제를 소개합니다. 에티오피아 언어는 다양한 문자와 깊은 종교 및 문화적 의미를 가지고 있습니다.
EthioLLM - 5개 에티오피아 언어와 영어를 위한 다국어 대규모 언어 모델과 Ethiobenchmark - 다양한 자연어 처리 작업을 위한 새로운 벤치마크 데이터셋을 소개합니다.
5개 자연어 처리 작업(뉴스 분류, 기계 번역, 혐오 발언 탐지, 감성 분석, 개체명 인식, 품사 태깅)에서 EthioLLM 모델의 성능을 평가하고 비교합니다.
EthioLLM 모델, 학습 코퍼스, Ethiobenchmark 데이터셋, 작업별 fine-tuned 모델을 오픈소스로 공개하여 에티오피아 언어 연구를 촉진하고자 합니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問