Core Concepts
개체 유형에 따른 답변 집합 확장을 통해 기존 평가 방식의 한계를 극복하고 신뢰성 있는 평가를 수행할 수 있다.
Abstract
이 논문은 질문 답변 모델 평가를 위한 새로운 접근법을 제안한다. 최근 대형 언어 모델(LLM)을 직접 활용하는 것이 가장 신뢰할 수 있는 평가 방법으로 알려졌지만, 해석 가능성 부족, 높은 비용, 환경적 피해 등의 문제가 있다.
이를 해결하기 위해 저자들은 개체 유형 기반의 답변 집합 확장을 활용한 소프트 정확도 매치(Soft EM) 방식을 제안한다. 개체 유형에 따라 답변의 다양한 표현 형식을 LLM의 문맥 학습 능력을 활용하여 확장함으로써, 기존 평가 방식의 한계를 극복하고자 한다.
실험 결과, 제안 방식은 기존 평가 방식에 비해 큰 폭으로 성능이 향상되었으며, LLM 기반 평가 방식과 유사한 수준의 신뢰성을 보였다. 또한 해석 가능성이 높고 환경적 영향이 적다는 장점이 있다.
Stats
질문 답변 모델 평가에 사용된 데이터셋은 Natural Questions와 TriviaQA이다.
이 데이터셋들의 답변 유형 분포는 다음과 같다:
Natural Questions: 숫자형 55.6%, 비숫자형 44.4%
TriviaQA: 숫자형 18.6%, 비숫자형 81.4%
Quotes
"최근 대형 언어 모델(LLM)을 직접 활용하는 것이 가장 신뢰할 수 있는 평가 방법으로 알려졌지만, 해석 가능성 부족, 높은 비용, 환경적 피해 등의 문제가 있다."
"개체 유형에 따라 답변의 다양한 표현 형식을 LLM의 문맥 학습 능력을 활용하여 확장함으로써, 기존 평가 방식의 한계를 극복하고자 한다."