ClarQ-LLM은 영어-중국어 대화 과제, 대화 에이전트, 평가 지표로 구성된 평가 프레임워크이다. 31가지 다양한 과제 유형이 포함되어 있으며, 각 유형마다 10개의 고유한 대화 시나리오가 있다. 이 시나리오에서 정보 요청 에이전트는 불확실성을 해결하고 과제를 완수하기 위해 질문을 해야 한다. 기존 벤치마크와 달리 ClarQ-LLM에는 원래 인간 제공자를 복제하는 제공자 대화 에이전트가 포함되어 있다. 이를 통해 현재와 미래의 정보 요청 에이전트가 대화를 통해 정보 수집 과제를 완수할 수 있도록 한다. 실험 결과, LLAMA3.1 405B 정보 요청 에이전트의 최대 성공률은 60.05%에 불과해 ClarQ-LLM이 향후 연구에 강력한 도전과제를 제시한다는 것을 보여준다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Yujian Gan, ... lúc arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06097.pdfYêu cầu sâu hơn