이 논문은 LFQA(Long-Form Question Answering) 평가를 위한 새로운 벤치마크인 CALF(Chinese exAmination for LFQA Evaluation)를 소개한다. CALF는 중국 대학입학시험과 대학원 입학시험에서 수집한 1,476개의 문제와 답변으로 구성되어 있다. 이 데이터셋은 다양한 주제(지리, 역사, 정치, 법, 의학, 심리학)를 포함하며, 전문가가 작성한 답변 참조 자료를 제공한다.
논문에서는 CALF 데이터셋을 활용하여 7개의 전통적인 평가 지표, 3개의 프롬프트 기반 지표, 3개의 학습 기반 지표의 성능을 평가하였다. 실험 결과, 현재 사용되는 자동 평가 지표들은 인간의 평가 수준에 미치지 못하는 것으로 나타났다. 이는 이러한 지표들이 장문의 답변에 포함된 핵심 정보를 정확하게 포착하지 못하기 때문이다.
또한 에이전트 기반 평가 시스템을 활용한 실험에서도 큰 성능 향상을 보이지 않았다. 이를 통해 LFQA 평가를 위한 새로운 접근법이 필요함을 시사한다. 논문은 LFQA 평가 기술 발전을 위한 중요한 통찰을 제공한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문