Core Concepts
대규모 언어 모델(LLM)의 다국어 평가를 위한 METAL 프레임워크를 제안한다. 10개 언어로 구성된 1,000개의 요약문 데이터셋을 구축하고, GPT-3.5-Turbo, GPT-4, PaLM2 모델의 평가 성능을 비교한다. GPT-4가 가장 우수한 성능을 보이며, GPT-3.5-Turbo는 다국어 평가에 적합하지 않음을 확인한다.
Abstract
METAL 프레임워크는 대규모 언어 모델(LLM)의 다국어 평가를 위한 종단간 파이프라인이다. 10개 언어로 구성된 1,000개의 요약문 데이터셋을 구축하였다. 이 데이터셋은 언어적 수용성, 출력 품질, 과제 품질 등 5가지 지표에 대해 원어민 화자의 평가를 포함한다. 데이터셋 구축을 위해 GPT-4를 활용하여 양질의 요약문과 저품질의 요약문을 생성하였다.
데이터셋 평가 실험에서는 GPT-3.5-Turbo, GPT-4, PaLM2 모델의 성능을 비교하였다. 결과적으로 GPT-4가 가장 우수한 성능을 보였으며, 특히 상세한 지침을 제공할 경우 인간 평가와 가장 유사한 결과를 나타냈다. 반면 GPT-3.5-Turbo는 다국어 평가에 적합하지 않은 것으로 나타났다.
추가로 LLM 평가자의 추론 과정을 분석한 결과, 점수와 추론 내용이 일치하지 않는 경우가 많았다. 이는 LLM 기반 평가자의 한계를 보여준다.
Stats
요약문의 평균 토큰 수는 언어별로 67.71 ~ 339.83개 범위에 있다.
양질의 요약문과 저품질의 요약문이 각각 50% 포함되어 있다.
Quotes
"LLM 기반 평가자는 편향성을 보이고 인간 판단과 잘 맞지 않는다."
"LLM 기반 평가자의 추론 과정은 종종 인간 평가자의 추론과 일치하지 않는다."