핵심 개념
대규모 언어 모델(LLM)의 효과적인 평가를 위해 기존의 다중 선택형 문제 풀이(MCQA) 방식의 한계를 지적하고, 실제 사용 시나리오를 반영한 새로운 RWQ-Elo 평가 시스템을 제안한다.
초록
이 논문은 대규모 언어 모델(LLM)의 효과적인 평가 방법에 대해 논의한다.
- 기존의 다중 선택형 문제 풀이(MCQA) 평가 방식의 한계를 지적한다. MCQA는 정확도 측정이 용이하지만, 실제 사용 시나리오와 부합하지 않는 문제가 있다.
- 실제 사용자 질문으로 구성된 "Real-World Questions(RWQ)" 벤치마크를 소개하고, LLM 간 경쟁을 통해 Elo 레이팅을 산출하는 RWQ-Elo 평가 시스템을 제안한다.
- RWQ-Elo 시스템은 GPT-4를 판정관으로 활용하여 신뢰성 있는 평가 결과를 제공한다.
- 다양한 분석을 통해 RWQ-Elo 시스템의 안정성과 새로운 모델 등록 방식을 검증한다.
- 이를 통해 LLM 평가에 대한 새로운 관점을 제시하고, 실제 사용 시나리오를 반영한 평가 프레임워크를 제안한다.
통계
대규모 언어 모델 24개를 11개의 벤치마크에 걸쳐 평가한 결과, 모델별로 선호하는 MCQA 평가 전략이 다르다는 것을 확인했다.
MCQA 문제에서 선택지 순서를 변경하면 모델의 성능이 크게 저하되는 것으로 나타났다.
LLM의 MCQA 정답 선택과 실제 생성된 응답 간에 불일치가 발견되었다.
인용구
"LLMs often produce varying predictions when the order of choices is altered."
"Generative LLMs are trained with the objective of next-token prediction. While the accuracy of the MCQA evaluation is straightforward to measure and facilitates comparisons with other models, this approach does not always translate well to practical applications."
"LLMs might accurately respond to open-ended questions yet incorrectly choose the reference choice in MCQA."