Core Concepts
심리측정학적 접근을 통해 대규모 언어 모델의 8학년 수학 능력을 정확하게 측정하고 인간 집단과 비교할 수 있다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 학업 능력 평가에 심리측정학적 접근을 도입하여 기존 벤치마킹의 한계를 극복하고자 한다.
첫째, 연구진은 PATCH라는 새로운 프레임워크를 제안한다. PATCH는 심리측정학적 원리를 활용하여 LLM의 능력을 정확하게 측정하고 인간 집단과 비교할 수 있게 한다.
둘째, 연구진은 PATCH를 활용하여 GPT-4와 Gemini-Pro-Vision의 8학년 수학 능력을 측정하고, 56개 국가/지역의 8학년 학생들과 비교한다. 이를 통해 심리측정학적 접근이 기존 벤치마킹 방식과 다른 결과를 도출할 수 있음을 보여준다.
셋째, 연구진은 8학년 수학 및 과학 능력을 측정할 수 있는 4개의 데이터셋을 공개한다. 이를 통해 향후 연구자들이 PATCH 프레임워크를 활용할 수 있도록 한다.
Stats
8학년 수학 시험에는 총 88개의 문항이 포함되어 있으며, 이 중 48개는 선다형, 30개는 개방형 정답/오답 문항, 10개는 개방형 부분점수 문항이다.
이 문항들은 수, 대수, 기하, 자료와 확률 등 8학년 수학 교육과정의 4개 내용 영역을 대표한다.
각 문항은 알기, 적용, 추론 등 3개의 인지 영역을 측정한다.
Quotes
"심리측정학적 접근은 LLM의 능력을 보다 정확하게 측정하고 인간 집단과 비교할 수 있게 한다."
"기존 벤치마크의 한계를 극복하기 위해 심리측정학적 원리를 활용한 새로운 프레임워크 PATCH를 제안한다."
"PATCH를 활용하여 측정한 GPT-4와 Gemini-Pro-Vision의 8학년 수학 능력은 기존 벤치마킹 방식과 다른 결과를 보여준다."