이 논문은 INDICGENBENCH라는 다국어 벤치마크를 소개한다. INDICGENBENCH는 29개 인도 언어에 걸쳐 교차 언어 요약, 기계 번역, 교차 언어 질문 답변 등 다양한 생성 작업을 평가한다. 이는 기존 벤치마크를 확장하여 많은 저자원 인도 언어에 대한 평가 데이터를 제공한다.
논문에서는 다양한 대규모 언어 모델(mT5, LLaMA, BLOOMZ, Gemma, GPT-3.5, GPT-4, PaLM-2)을 INDICGENBENCH로 평가했다. 실험 결과, 가장 큰 PaLM-2 모델이 대부분의 작업에서 가장 좋은 성능을 보였지만, 영어와 비교했을 때 모든 언어에서 상당한 성능 격차가 있음을 확인했다. 이는 현재 최첨단 다국어 언어 모델의 한계를 보여준다.
논문은 또한 언어 자원 수준에 따른 성능 차이, 문맥 학습의 효과, 고자원 언어에서의 전이 학습 효과 등을 분석했다. 마지막으로 모델의 정성적 분석을 통해 생성 오류 유형을 확인하고 향후 연구 방향을 제시했다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Harman Singh... о arxiv.org 04-26-2024
https://arxiv.org/pdf/2404.16816.pdfГлибші Запити