핵심 개념
대규모 언어 모델의 과학적 문제 해결 능력을 평가하기 위해 대학 컴퓨터 과학 시험 문제를 활용한 벤치마크 SciEx를 제안하였다. SciEx는 다국어, 다모달 문제를 포함하며, 전문가 채점과 자동 채점을 제공한다. 실험 결과, 현재 대규모 언어 모델은 대학 시험 문제를 해결하는 데 여전히 어려움을 겪고 있지만, 채점 능력은 전문가 수준에 근접한 것으로 나타났다.
초록
이 논문에서는 대규모 언어 모델(LLM)의 과학적 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SciEx를 제안한다. SciEx는 다음과 같은 특징을 가지고 있다:
- 다국어: 영어와 독일어로 구성된 대학 컴퓨터 과학 시험 문제를 포함한다.
- 다모달: 이미지를 포함하는 문제를 포함한다.
- 다양한 유형의 자유 응답 문제: 대학 시험의 특성을 반영하여 다양한 난이도의 자유 응답 문제를 포함한다.
이 벤치마크를 통해 다양한 최신 LLM의 성능을 평가하였다. 자유 응답 문제의 특성상 LLM 출력을 평가하기 위해 전문가 채점을 활용하였다. 실험 결과, 현재 LLM은 대학 시험 문제를 해결하는 데 여전히 어려움을 겪고 있으며, 최고 성능 모델도 평균 59.4%의 점수만을 얻었다. 이는 기존 과학 분야 벤치마크보다 더 도전적인 과제임을 보여준다.
또한 LLM의 문제 난이도별 성능 차이, 언어별 성능 차이, 이미지 포함 여부에 따른 성능 차이 등을 분석하였다. 이를 통해 LLM의 과학적 문제 해결 능력의 한계와 개선 방향을 확인할 수 있었다.
마지막으로 새로운 LLM을 SciEx에서 평가할 수 있도록 LLM 자체를 채점관으로 활용하는 자동 채점 방법을 제안하고 평가하였다. 실험 결과, 강력한 LLM은 전문가 채점과 0.948의 높은 상관관계를 보여, 향후 LLM 평가에 활용될 수 있음을 확인하였다.
통계
현재 LLM 중 가장 우수한 모델인 Claude는 대학 시험 문제에서 평균 59.4%의 점수를 받았다.
학생 평균 점수는 45.3%로, 가장 우수한 LLM인 Claude와 GPT-4V만이 학생 평균을 넘어섰다.
문제 난이도별로 볼 때, 강력한 LLM은 어려운 문제에서 더 나은 성적을 보였다.
영어 문제에서는 대부분의 LLM이 학생 평균을 넘어섰지만, 독일어 문제에서는 그렇지 않았다.
이미지가 포함된 문제의 경우, 이미지 처리 능력이 있는 LLM만이 학생 수준의 성적을 보였다.
인용구
"현재 LLM은 대학 시험 문제를 해결하는 데 여전히 어려움을 겪고 있지만, 채점 능력은 전문가 수준에 근접한 것으로 나타났다."
"가장 우수한 LLM인 Claude와 GPT-4V만이 학생 평균 점수를 넘어섰다."
"강력한 LLM은 어려운 문제에서 더 나은 성적을 보였다."