核心概念
대규모 언어 모델(LLM)은 벵골어 NLP 작업에서 일부 작업에서는 기존 최첨단 모델과 비슷하거나 더 나은 성능을 보였지만, 대부분의 작업에서는 상당히 낮은 성능을 보였다. 이는 LLM이 현재 형태로는 벵골어와 같은 자원 부족 언어에 대한 포괄적인 솔루션으로 적합하지 않음을 시사한다.
摘要
이 논문은 대규모 언어 모델(LLM)의 벵골어 NLP 작업에 대한 포괄적인 평가를 제공한다. 7가지 중요하고 다양한 벵골어 NLP 작업(텍스트 요약, 질문 답변, 문장 생성, 자연어 추론, 음역, 텍스트 분류, 감성 분석)을 선정하여 GPT-3.5, LLaMA-2-13b-chat, Claude-2 모델의 제로샷 성능을 평가했다. 실험 결과, LLM은 일부 작업에서 기존 최첨단 모델과 유사하거나 더 나은 성능을 보였지만, 대부분의 작업에서는 상당히 낮은 성능을 보였다. 특히 오픈소스 LLaMA-2-13b-chat 모델의 성능이 매우 저조했다. 이는 LLM이 현재 형태로는 벵골어와 같은 자원 부족 언어에 대한 포괄적인 솔루션으로 적합하지 않음을 시사한다. 향후 연구에서는 다른 자원 부족 언어에 대한 LLM의 성능을 평가하여 LLM의 한계를 더 깊이 있게 이해할 필요가 있다.
統計資料
GPT-3.5는 텍스트 요약 작업에서 ROUGE-2 점수가 5.81로 가장 높았다.
Claude-2는 텍스트 요약 작업에서 ROUGE-1과 ROUGE-L 점수가 각각 20.79와 16.47로 가장 높았다.
GPT-3.5는 질문 답변 작업에서 F1 점수가 78.67로 가장 높았다.
GPT-3.5는 단어 수준 음역 작업에서 문자 오류율(CER)이 18.1%, 단어 오류율(WER)이 60.6%로 가장 낮았다.
GPT-3.5는 감성 분석 작업에서 IndicSentiment 데이터셋에서 90.20%의 정확도로 새로운 최고 성능을 달성했다.
引述
"LLM은 일부 작업에서 기존 최첨단 모델과 유사하거나 더 나은 성능을 보였지만, 대부분의 작업에서는 상당히 낮은 성능을 보였다."
"이는 LLM이 현재 형태로는 벵골어와 같은 자원 부족 언어에 대한 포괄적인 솔루션으로 적합하지 않음을 시사한다."