핵심 개념
본 연구는 대규모 언어 모델(LLM) 기반 챗봇의 응답 정확성을 평가하기 위해 '진실성'이라는 개념을 정의하고, 특히 제한된 데이터 환경에서 챗봇의 응답이 실제 고객 지원 팀의 평가 기준과 얼마나 일치하는지 분석하는 데 중점을 둡니다.
초록
LLM 기반 네덜란드어 지원 챗봇의 정확성 평가: 챗봇이 거짓말을 하는가?
본 연구 논문은 네덜란드 소프트웨어 회사인 AFAS에서 개발한 LLM 기반 고객 지원 챗봇의 응답 정확성을 평가하는 방법론을 제시합니다.
본 연구의 주요 목표는 제한된 데이터 환경에서 LLM 기반 챗봇의 응답 정확성을 평가하고, 특히 챗봇의 응답이 실제 고객 지원 팀의 평가 기준과 얼마나 일치하는지 분석하는 것입니다.
연구팀은 챗봇 응답의 정확성을 '진실성', '관련성', '완전성'의 세 가지 차원으로 정의하고, 이 중 '진실성'에 초점을 맞춰 연구를 진행했습니다.
데이터 수집 및 분석
고객 지원 팀이 평가한 챗봇 응답 데이터(79개 훈련 데이터, 154개 테스트 데이터)를 수집했습니다.
수집된 데이터를 바탕으로 챗봇 응답의 오류 유형을 분석하고, 이를 '오류 해결', '이진 답변', '지침', '인과 관계 추론', '행동', '불특정 의도', '일반 정보'와 같은 7가지 메시지 유형으로 분류했습니다.
진실성 평가 지표 개발
고객 지원 팀의 응답 평가 방식을 모방한 의사 결정 트리를 구축했습니다.
의사 결정 트리 분석을 통해 챗봇 응답의 진실성을 평가하기 위한 주요 휴리스틱을 도출했습니다.
도출된 휴리스틱을 기반으로 자동 평가 지표를 개발하고, 각 지표의 성능을 스피어만 상관관계 분석을 통해 검증했습니다.