이 연구는 오픈 소스 대화형 LLM의 스페인어 어휘 지식을 평가했다. 주요 결과는 다음과 같다:
유효한 의미를 생성하는 비율이 50% 미만이다. 모델의 3분의 2가 단어의 절반 이상에 대해 유효한 의미를 생성하지 못한다. 가장 좋은 모델도 66%에 불과하다.
단어 사용의 정확성이 25% 미만이다. 단 한 개의 모델만이 25%를 넘었고, 대부분의 모델은 10% 미만이다.
모델 크기가 커질수록 성능이 향상된다. Llama, Mistral, Yi 모델에서 의미와 사용이 모두 증가한다.
스페인어 최적화가 성능 향상으로 이어지지 않는다. 다국어 모델(Bloomz) 또는 스페인어 최적화 모델(Flor, Bertin)이 동일 크기의 Llama나 Mistral 모델보다 낮은 점수를 받았다.
이 결과는 오픈 소스 대화형 LLM이 스페인어 어휘 지식에 한계가 있음을 보여준다. 이는 대부분의 모델이 영어 또는 중국어 중심으로 학습되었기 때문으로 보인다. 따라서 대화형 LLM의 언어 공정성을 높이기 위한 노력이 필요하다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询