Core Concepts
대규모 언어 모델(LLM)이 기존 자동 평가 지표를 능가하여 문법 오류 수정(GEC) 평가에서 최신 성과를 달성했다.
Abstract
이 연구는 LLM이 GEC 평가에서 어떤 성능을 보이는지 조사했다. 다양한 평가 기준을 반영하는 프롬프트를 사용하여 LLM의 평가 성능을 평가했다. 실험 결과, GPT-4가 인간 평가와의 켄달 순위 상관관계 0.662를 달성하여 기존 방법을 능가하는 최신 성과를 보였다. 특히 유창성 기준이 중요한 것으로 나타났다. 또한 LLM 규모가 작아질수록 인간 평가와의 상관관계가 감소하고 문장의 유창성을 포착하는 능력이 감소하는 것으로 나타났다.
Stats
GPT-4가 인간 평가와의 켄달 순위 상관관계 0.662를 달성했다.
유창성 기준을 포함한 프롬프트를 사용하면 LLM의 평가 성능이 향상된다.
LLM 규모가 작아질수록 인간 평가와의 상관관계가 감소한다.
Quotes
"GPT-4가 인간 평가와의 켄달 순위 상관관계 0.662를 달성하여 기존 방법을 능가하는 최신 성과를 보였다."
"유창성 기준이 GEC 평가에서 특히 중요한 것으로 나타났다."
"LLM 규모가 작아질수록 인간 평가와의 상관관계가 감소하고 문장의 유창성을 포착하는 능력이 감소한다."