이 논문은 대규모 언어 모델(LLM)의 벵골어 NLP 작업에 대한 포괄적인 평가를 제공한다. 7가지 중요하고 다양한 벵골어 NLP 작업(텍스트 요약, 질문 답변, 문장 생성, 자연어 추론, 음역, 텍스트 분류, 감성 분석)을 선정하여 GPT-3.5, LLaMA-2-13b-chat, Claude-2 모델의 제로샷 성능을 평가했다. 실험 결과, LLM은 일부 작업에서 기존 최첨단 모델과 유사하거나 더 나은 성능을 보였지만, 대부분의 작업에서는 상당히 낮은 성능을 보였다. 특히 오픈소스 LLaMA-2-13b-chat 모델의 성능이 매우 저조했다. 이는 LLM이 현재 형태로는 벵골어와 같은 자원 부족 언어에 대한 포괄적인 솔루션으로 적합하지 않음을 시사한다. 향후 연구에서는 다른 자원 부족 언어에 대한 LLM의 성능을 평가하여 LLM의 한계를 더 깊이 있게 이해할 필요가 있다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Mohsinul Kab... a las arxiv.org 03-20-2024
https://arxiv.org/pdf/2309.13173.pdfConsultas más profundas