Core Concepts
InspectorRAGet은 RAG 시스템의 성능을 종합적으로 분석하고 개선할 수 있는 통찰력 있는 플랫폼이다.
Abstract
InspectorRAGet은 RAG 시스템 평가를 위한 종합적인 플랫폼이다. 이 플랫폼은 다음과 같은 기능을 제공한다:
모델, 데이터셋, 메트릭 등 실험 설계 정보를 입력받아 실험 결과를 분석한다.
모델 성능에 대한 종합적인 개요를 제공하며, 알고리즘 기반 메트릭과 사람 평가 메트릭을 모두 고려한다.
개별 데이터 인스턴스 단위로 모델 행동을 분석하여 오류 분석을 지원한다.
모델 간 비교, 메트릭 간 상관관계 분석 등을 통해 메트릭의 정의와 적합성을 평가한다.
사람 평가 데이터에 대한 주석자 행동 분석을 통해 평가 프로세스의 품질을 개선한다.
데이터셋 자체에 대한 분석을 통해 데이터의 편향성이나 오류를 발견할 수 있다.
이를 통해 RAG 시스템 개발자와 이해관계자들은 모델의 강점과 약점을 종합적으로 파악하고 개선 방향을 도출할 수 있다.
Stats
Llama 모델의 응답은 길이가 가장 길고 추출성이 가장 높다.
Mistral 모델의 알고리즘 메트릭 점수는 가장 낮지만, 사람 평가에서는 Llama보다 높게 평가되었다.
CLAPNQ 데이터셋의 참조 응답에 대한 사람 평가자 간 의견 불일치가 가장 컸다.
Quotes
"Llama 모델의 응답은 종종 '물론 도와드리겠습니다'로 시작하여 사람 평가자들에게 선호되지 않았다."
"알고리즘 메트릭만으로는 모델 선호도를 정확히 반영하지 못하므로, 사람 평가를 병행하는 것이 중요하다."
"데이터셋 내 일부 문제는 모호하여 평가자들 간 의견이 엇갈렸는데, 이를 개선하면 보다 정확한 평가가 가능할 것이다."