Core Concepts
대형 언어 모델을 사용하여 쓰여진 에세이를 효과적으로 평가하는 능력을 테스트하고, 성능을 분석한다.
Abstract
자동 에세이 채점의 문제를 해결하기 위해 대형 언어 모델(Large Language Models, LLMs)의 능력을 테스트
LLMs의 성능을 ASAP 데이터셋을 통해 분석
ChatGPT와 Llama 두 LLMs의 성능 비교
총 8가지 작업에 대해 4가지 프롬프트를 사용하여 실험 진행
LLMs의 성능은 프롬프트와 작업 유형에 따라 크게 달라짐
LLMs의 성능은 SOTA 모델에 비해 낮음
LLMs는 에세이 품질 향상을 위한 피드백 제공 가능성을 보여줌
Stats
대형 언어 모델은 높은 QWK 점수를 달성
ChatGPT와 Llama의 성능은 작업 유형에 따라 다름
Quotes
"대형 언어 모델은 높은 성능을 보여주지만 SOTA 모델에 비해 성능이 낮음."
"LLMs는 에세이 품질 향상을 위한 피드백을 제공할 수 있는 가능성을 보여줌."