核心概念
ViLLM-Eval은 베트남어 대규모 언어 모델의 고급 지식과 추론 능력을 종합적으로 평가하기 위해 설계된 평가 도구이다.
摘要
이 연구는 베트남어 대규모 언어 모델(LLM)의 성능을 종합적으로 평가하기 위해 ViLLM-Eval이라는 평가 도구를 소개한다. ViLLM-Eval은 다양한 난이도와 주제의 선다형 문제와 다음 단어 예측 과제로 구성되어 있다. 이를 통해 베트남어 사용자와 관련된 지식과 추론 능력을 평가한다.
ViLLM-Eval은 4가지 평가 데이터셋으로 구성된다:
LAMBADA vi: 문맥 이해 능력을 평가하는 문장 완성 과제
Exam Vietnamese: 중고등학교 수준의 다양한 과목 선다형 문제
General Knowledge: 베트남 TV 퀴즈쇼 문제로 구성된 일반 상식 평가
Comprehension QA: 긴 지문에 대한 이해력을 평가하는 선다형 문제
이 연구에서는 최신 베트남어 LLM들을 ViLLM-Eval로 평가한 결과, 가장 우수한 모델들도 베트남어 과제에서 여전히 개선의 여지가 있음을 확인했다. 이는 베트남어 LLM 개발을 위한 중요한 시사점을 제공한다.
統計資料
LAMBADA vi 데이터셋의 마지막 단어 예측 정확도는 Vistral-7B가 44.82%, Dama-2-7B가 39.7%로 가장 높았다.
Exam 데이터셋의 정답률은 ChatGPT가 48.62%, Vistral-7B가 48.76%로 가장 높았다.
General Knowledge 데이터셋의 정답률은 ChatGPT가 54.05%, Dama-2-7B가 54.75%로 가장 높았다.
Comprehension QA 데이터셋의 정답률은 ChatGPT가 74.21%, Dama-2-7B가 67.22%로 가장 높았다.
引述
"ViLLM-Eval은 베트남어 대규모 언어 모델의 고급 지식과 추론 능력을 종합적으로 평가하기 위해 설계되었다."
"이 연구에서 수행한 최신 베트남어 LLM들의 ViLLM-Eval 평가 결과는 이들 모델에 여전히 개선의 여지가 있음을 보여준다."