核心概念
본 논문에서는 대규모 언어 모델(LLM)을 사용하여 인간과 AI 모델 간의 상호작용 질의응답(IQA) 시스템을 자동으로 평가하는 IQA-EVAL 프레임워크를 제안하고, 이를 활용하여 최신 LLM의 IQA 성능을 벤치마킹한 결과를 제시합니다.
要約
IQA-EVAL: 인간-모델 상호작용 질의응답의 자동 평가
본 연구는 인간-AI 상호작용 질의응답(IQA) 시스템의 성능을 자동으로 평가하기 위한 IQA-EVAL 프레임워크를 제안하고, 이를 통해 최신 대규모 언어 모델(LLM)의 IQA 성능을 벤치마킹하는 것을 목표로 합니다.
IQA-EVAL 프레임워크는 LLM 기반 평가 에이전트(LEA)를 활용하여 인간 사용자를 시뮬레이션하고 IQA 모델과의 상호작용을 생성 및 평가합니다.
1단계: LEA를 이용한 상호작용 생성
LEA는 역할 설명, 작업 설명, 토론 지침을 포함하는 구조화된 프롬프트를 통해 인간 사용자를 모방합니다.
LEA는 주어진 질문에 대해 하위 질문을 생성하여 IQA 모델과 상호작용하고, 최종 답변을 결정할 때까지 이 과정을 반복합니다.
2단계: LEA를 이용한 상호작용 평가
LEA는 1단계에서 생성된 상호작용을 평가합니다.
평가는 작업 세부 정보, 상호작용 기록, 미리 정의된 평가 지표(예: 유창성, 유용성, 질문 수, 정확도)를 기반으로 수행됩니다.
페르소나 할당
다양한 사용자 그룹을 시뮬레이션하기 위해 LEA에 '전문가', '비판적 사고자', '적응성 추구자', '명확성 추구자'와 같은 페르소나를 할당합니다.
페르소나는 LEA의 프롬프트에 반영되어 특정 사용자 그룹의 특징과 선호도에 맞는 상호작용을 생성하고 평가합니다.