핵심 개념
정보 추출 작업에서 기존 평가 방식의 한계를 극복하고자 주관식 질문 교정 데이터를 활용하여 생성 언어 모델을 정교하게 매칭하고, 자연어 추론 모델을 통해 데이터셋의 불완전성을 보완하는 새로운 평가 방법인 SQC-Score를 제안한다.
초록
이 논문은 정보 추출(IE) 작업에서 생성 언어 모델(LLM)의 성능을 보다 정확하게 평가하기 위한 새로운 방법인 SQC-Score를 제안한다.
기존 평가 방식의 한계:
- 기존 평가 지표들은 모델 출력과 정답 간의 의미적 일관성을 효과적으로 측정하지 못함
- 평가 벤치마크의 불완전성: 제한적인 인간 주석으로 인해 정답이 누락되는 문제
SQC-Score의 핵심 구성:
- Matcher: 주관식 질문 교정 데이터로 fine-tuned된 LLM을 활용하여 모델 출력과 정답 간 의미적 일관성을 평가
- Complementer: 자연어 추론(NLI) 모델을 활용하여 평가 데이터셋의 불완전성을 보완
실험 결과:
- SQC-Score가 기존 평가 지표들보다 인간 평가자들에게 더 선호됨
- SQC-Score를 통해 LLM의 정보 추출 성능을 재평가한 결과, LLM이 단순 IE 작업에서 우수한 성능을 보이지만 복잡한 스키마 기반 IE 작업에서는 여전히 어려움을 겪는 것으로 나타남
통계
주관식 질문 교정 데이터에서 교사가 학생 답안에 부여한 점수와 그 근거를 활용하여 LLM을 fine-tuning
자연어 추론 모델을 활용하여 정답에 누락된 내용을 보완하고 신뢰도 점수를 부여
인용구
"Modern large language models (LLMs) have showcased remarkable prowess in various tasks necessitating sophisticated cognitive behaviors."
"Nevertheless, a paradoxical performance discrepancy is observed, where these models underperform in seemingly elementary tasks like relation extraction and event extraction."