핵심 개념
LLM을 활용하여 중학교 지구 과학 교육과정의 형성 평가 응답을 자동으로 채점하고 의미 있는 설명을 제공하는 방법을 제시한다.
초록
이 연구는 LLM(대규모 언어 모델)을 활용하여 중학교 지구 과학 교육과정의 형성 평가 응답을 자동으로 채점하고 설명을 제공하는 방법을 제안한다.
주요 내용은 다음과 같다:
- 과학 개념 이해와 추론 능력 평가를 위한 3개의 형성 평가 문항을 선정하였다.
- GPT-4를 활용하여 학생 응답을 자동으로 채점하고 설명을 제공하는 체인 사고 프롬프팅 및 능동 학습 접근법을 개발하였다.
- 이 접근법은 사람-기계 협업 방식으로, 사람 평가자와 모델의 점수 차이를 분석하여 모델 성능을 개선하였다.
- 실험 결과, 대부분의 평가 항목에서 사람 평가자와 모델의 점수가 잘 일치하였으며, 특히 과학 개념 이해 평가에서 우수한 성능을 보였다.
- 과학 추론 능력 평가에서는 모델의 성능이 다소 낮았는데, 이는 문항 및 채점 기준의 모호성에 기인한 것으로 분석되었다.
- 이 연구는 LLM을 활용하여 과학 교육에서 학생의 개념 이해와 추론 능력을 자동으로 평가하고 피드백을 제공할 수 있는 가능성을 보여주었다.
통계
"학생의 응답에서 '화살표 크기'를 언급했다. 채점 기준에 따르면 이는 정답이다. 따라서 1점을 부여한다."
"학생이 '물의 양을 나타내기 위해 화살표 크기를 사용했다'고 말했다. 이는 채점 기준에 부합하므로 1점을 부여한다."
"학생이 '강수량 화살표보다 흡수 화살표가 더 크다'고 지적했다. 이는 보존 법칙을 적용한 것이므로 1점을 부여한다."
인용구
"화살표 크기는 물의 양을 나타낸다."
"강수량 화살표보다 흡수 화살표가 더 크므로 잘못되었다."
"물이 지표면으로 흘러내리는 방향이 잘못되었다."