이 연구는 대규모 언어 모델(LLM)이 K-12 교육에서 단답형 문제를 채점할 수 있는 능력을 실증적으로 평가했다. 연구진은 영국의 온라인 퀴즈 플랫폼 Carousel에서 수집한 1,710개의 학생 답변 데이터셋을 활용했다.
연구 결과, GPT-4 모델이 전문가 수준의 채점 성능(Kappa 0.70)을 보였다. 이는 GPT-4가 과학과 역사 과목, 다양한 학년 수준에서 단답형 문제를 채점할 수 있음을 시사한다. 특히 GPT-4의 성능이 전문가 수준에 근접했다는 점은 LLM이 K-12 교육에서 저stakes 형성평가 도구로 활용될 수 있음을 보여준다.
연구진은 LLM의 성능이 과목, 학년, 문제 난이도에 따라 크게 변동되지 않았다는 점을 발견했다. 이는 LLM이 다양한 교육 환경에서 활용될 수 있음을 시사한다. 다만 채점 과정에 내재된 모호성으로 인해 전문가 수준의 성능이 모델 성능의 상한선이 될 것으로 보인다.
향후 연구에서는 LLM의 성능에 영향을 미치는 요인, 특히 답변 평가 시 필요한 판단력 수준에 대한 분석이 필요할 것으로 보인다. 또한 교육 현장에서의 실제 활용 가능성을 높이기 위해 다양한 유형의 문제에 대한 평가가 필요할 것이다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor