이 연구는 대규모 언어 모델(LLM)이 K-12 교육에서 단답형 문제를 채점할 수 있는 능력을 실증적으로 평가했다. 연구진은 영국의 온라인 퀴즈 플랫폼 Carousel에서 수집한 1,710개의 학생 답변 데이터셋을 활용했다.
연구 결과, GPT-4 모델이 전문가 수준의 채점 성능(Kappa 0.70)을 보였다. 이는 GPT-4가 과학과 역사 과목, 다양한 학년 수준에서 단답형 문제를 채점할 수 있음을 시사한다. 특히 GPT-4의 성능이 전문가 수준에 근접했다는 점은 LLM이 K-12 교육에서 저stakes 형성평가 도구로 활용될 수 있음을 보여준다.
연구진은 LLM의 성능이 과목, 학년, 문제 난이도에 따라 크게 변동되지 않았다는 점을 발견했다. 이는 LLM이 다양한 교육 환경에서 활용될 수 있음을 시사한다. 다만 채점 과정에 내재된 모호성으로 인해 전문가 수준의 성능이 모델 성능의 상한선이 될 것으로 보인다.
향후 연구에서는 LLM의 성능에 영향을 미치는 요인, 특히 답변 평가 시 필요한 판단력 수준에 대한 분석이 필요할 것으로 보인다. 또한 교육 현장에서의 실제 활용 가능성을 높이기 위해 다양한 유형의 문제에 대한 평가가 필요할 것이다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問