이 논문에서는 대규모 언어 모델(LLM)의 과학적 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SciEx를 제안한다. SciEx는 다음과 같은 특징을 가지고 있다:
이 벤치마크를 통해 다양한 최신 LLM의 성능을 평가하였다. 자유 응답 문제의 특성상 LLM 출력을 평가하기 위해 전문가 채점을 활용하였다. 실험 결과, 현재 LLM은 대학 시험 문제를 해결하는 데 여전히 어려움을 겪고 있으며, 최고 성능 모델도 평균 59.4%의 점수만을 얻었다. 이는 기존 과학 분야 벤치마크보다 더 도전적인 과제임을 보여준다.
또한 LLM의 문제 난이도별 성능 차이, 언어별 성능 차이, 이미지 포함 여부에 따른 성능 차이 등을 분석하였다. 이를 통해 LLM의 과학적 문제 해결 능력의 한계와 개선 방향을 확인할 수 있었다.
마지막으로 새로운 LLM을 SciEx에서 평가할 수 있도록 LLM 자체를 채점관으로 활용하는 자동 채점 방법을 제안하고 평가하였다. 실험 결과, 강력한 LLM은 전문가 채점과 0.948의 높은 상관관계를 보여, 향후 LLM 평가에 활용될 수 있음을 확인하였다.
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Tu A... às arxiv.org 10-03-2024
https://arxiv.org/pdf/2406.10421.pdfPerguntas Mais Profundas