核心概念
지시 기반 질문 답변 모델은 전통적인 QA 평가 지표로는 정확하게 평가할 수 없으며, 정보 요구 충족도와 제공된 지식에 대한 충실도라는 두 가지 측면에서 평가해야 한다.
摘要
이 연구는 지시 기반 질문 답변 모델의 성능을 정보 요구 충족도와 제공된 지식에 대한 충실도라는 두 가지 측면에서 평가한다.
정보 요구 충족도 평가를 위해 전통적인 QA 지표인 정확도(EM), F1 점수 등의 한계를 확인하고, 토큰 중복 기반의 Recall 지표가 사람 평가와 더 잘 부합함을 보였다.
제공된 지식에 대한 충실도 평가를 위해 K-Precision 지표를 제안하였으며, 이 지표가 사람 평가와 높은 상관관계를 보였다.
이를 바탕으로 4개의 지시 기반 모델(Flan-T5, Alpaca, GPT-3.5, Llama-2)을 3개의 QA 데이터셋(Natural Questions, HotpotQA, TopiOCQA)에서 평가한 결과, 정확성과 충실성 사이의 trade-off가 존재함을 확인했다. GPT-3.5와 Llama-2는 정확성이 높지만 충실성이 낮고, Flan-T5는 충실성이 높지만 정확성이 낮았다.
統計資料
지시 기반 모델은 전통적인 QA 지표로는 정확하게 평가할 수 없다.
Recall 지표가 사람 평가와 가장 잘 부합한다.
K-Precision 지표가 제공된 지식에 대한 충실도 평가에 가장 적합하다.
정확성과 충실성 사이에 trade-off가 존재한다.
引述
"Instruction-following models are attractive alternatives to fine-tuned approaches for question answering (QA). By simply prepending relevant documents and an instruction to their input, these models can be adapted to various information domains and tasks without additional training."
"However, these models tend to produce verbose responses with supplementary information, which makes traditional QA metrics like exact match (EM) and F1 unreliable for accurately quantifying model performance."
"We posit that an optimal model should not only correctly respond to user queries but also be faithful, i.e. it should only disseminate information that is inferrable or directly stated by external documents."