本研究は、大規模言語モデル(LLM)の短答式問題の採点能力を検証するものである。Carouselという教育プラットフォームのデータを使って、科目(歴史、理科)と学年(小学校高学年、中学校、高校)を横断した1,710の生徒の短答式回答を収集した。
人間の教師による採点結果と比較したところ、GPT-4モデルに少量のサンプル提示を行うことで、人間レベルの採点精度(カッパ係数0.70)を達成できることが分かった。科目や難易度、学年によって大きな差はなく、LLMが幅広い教育分野の低stakes形成的評価タスクに活用できる可能性が示された。
教師による手動採点には多大な労力がかかるが、LLMを活用すれば大幅な時間短縮が可能であり、教育現場での活用が期待される。今後は、LLMの性能向上や、採点精度に影響する要因の分析などが課題として挙げられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問