Conceitos essenciais
정보 검색 시스템에 생성형 구성 요소가 점점 더 많이 도입되고 있다. 이에 따라 기존의 정보 검색 평가 방법으로는 이러한 생성형 시스템을 평가하기 어려워졌다. 본 논문에서는 생성형 정보 검색 시스템을 평가하기 위한 다양한 방법을 탐구하고 검증한다.
Resumo
이 논문은 생성형 정보 검색(Gen-IR) 시스템의 평가 방법을 탐구한다. 전통적인 정보 검색 평가 방법은 고정된 문서 집합에서 순위화된 결과를 대상으로 하지만, Gen-IR 시스템은 고정된 문서 집합에 의존하지 않고 새로운 텍스트를 생성한다. 따라서 기존 평가 방법으로는 Gen-IR 시스템을 적절히 평가할 수 없다.
논문에서는 다음과 같은 평가 방법을 제안하고 검증한다:
이진 관련성: 응답이 관련성 있는지 여부를 판단
등급별 관련성: 응답의 관련성 수준을 등급으로 평가
세부 주제 관련성: 응답이 각 세부 주제를 다루고 있는지 여부를 평가
쌍대 선호도: 응답과 참조 응답을 비교하여 선호도 판단
임베딩 기반 유사도: 응답과 참조 응답의 임베딩 유사도 측정
이러한 방법들은 사람의 평가와 일치하는 정도, 사람의 감사가 가능한 정도, 자율적으로 작동할 수 있는 정도 등을 기준으로 평가되었다. 실험 결과, 세부 주제 관련성과 쌍대 선호도 방법이 가장 우수한 것으로 나타났다.
Estatísticas
생성형 정보 검색 시스템의 응답은 고정된 문서 집합에서 가져온 것이 아니라 완전히 새로운 텍스트일 수 있다.
전통적인 정보 검색 평가 방법은 고정된 문서 집합을 대상으로 하므로 생성형 시스템을 평가하기 어렵다.
최근 대형 언어 모델(LLM)이 사람의 평가를 대체하여 정보 검색 평가에 활용되고 있다.
Citações
"LLM은 사람이 아니다. 정보 검색 효과성 측정은 궁극적으로 사용자의 관련성 판단에 기반해야 한다."
"전통적인 오프라인 평가는 유료 인적 평가자를 활용하지만, 점점 LLM이 이를 대체하고 있다."