Conceptos Básicos
LLM 기반 AutoNuggetizer 프레임워크를 사용한 완전 자동 너겟 평가 방식이, 수동으로 수행된 너겟 평가 결과와 높은 상관관계를 보이며 RAG 시스템 평가에 효과적인 도구임을 입증했습니다.
Resumen
TREC 2024 RAG 트랙 AutoNuggetizer 프레임워크 기반 초기 너겟 평가 결과 분석
본 연구는 정보 검색, 특히 자연어 처리 및 인공지능 분야에서 RAG(Retrieval-Augmented Generation) 시스템의 출력 결과를 평가하는 데 있어 자동화된 너겟 평가 방법론의 효과성을 검증하는 것을 목표로 합니다.
본 연구에서는 LLM(Large Language Model)을 활용하여 너겟 생성 및 할당을 자동화하는 AutoNuggetizer 프레임워크를 제안합니다.
데이터: TREC 2024 RAG 트랙에서 제공된 301개의 질의와 MS MARCO V2.1 데이터셋을 사용했습니다.
너겟 생성: NIST 평가자가 수동으로 생성한 너겟과 AutoNuggetizer를 통해 자동 생성한 너겟 두 가지를 사용했습니다.
너겟 할당: NIST 평가자가 수동으로 할당한 결과와 AutoNuggetizer를 통해 자동으로 할당한 결과를 비교 분석했습니다.
평가 지표: All, All Strict, Vital, Vital Strict, Weighted Score, Weighted Score Strict 등 다양한 평가 지표를 사용하여 시스템 성능을 측정했습니다.