核心概念
대규모 언어 모델의 에세이 채점 능력을 향상시키기 위해 다중 특성 전문화 기법을 제안하였다. 이를 통해 언어 모델이 에세이의 다양한 측면을 종합적으로 평가할 수 있게 하였다.
摘要
이 논문은 대규모 언어 모델(LLM)을 활용하여 에세이를 채점하는 제로샷 기법인 다중 특성 전문화(MTS)를 제안한다.
- 먼저 ChatGPT를 활용하여 에세이 작성 능력을 여러 특성으로 분해하고 각 특성에 대한 채점 기준을 생성한다.
- 그 다음 LLM이 각 특성에 대해 단계적으로 평가하고 점수를 부여하도록 한다. 이때 인용문 추출 및 평가 단계를 추가하여 LLM의 평가 정확도를 높였다.
- 마지막으로 특성 점수들을 평균내고 min-max 스케일링을 적용하여 최종 점수를 도출한다.
- 실험 결과, MTS는 기존 접근법 대비 ASAP와 TOEFL11 데이터셋에서 각각 최대 0.437, 0.355의 QWK 향상을 보였다. 또한 작은 규모의 Llama2-13b-chat 모델이 ChatGPT를 능가하는 성능을 보였다.
- 분석 결과, 특성 기반 채점 기준 제공, 세부 태스크 분해, 인용문 활용 등이 MTS의 성능 향상에 기여했음을 확인했다.
统计
에세이 길이는 ASAP 데이터셋에서 평균 106~725단어, TOEFL11 데이터셋에서 평균 339~361단어이다.
ASAP 데이터셋의 점수 범위는 0-3, 0-4, 0-6, 0-12, 0-30, 0-60이며, TOEFL11 데이터셋의 점수 범위는 low/medium/high이다.
引用
"LLMs excel across a wide range of downstream tasks via zero-shot or few-shot instructions."
"Careful prompt design plays a crucial role in unlocking LLMs' potential."
"MTS consistently outperforms Vanilla in average QWK across all LLMs on both datasets."