ClarQ-LLM은 영어-중국어 대화 과제, 대화 에이전트, 평가 지표로 구성된 평가 프레임워크이다. 31가지 다양한 과제 유형이 포함되어 있으며, 각 유형마다 10개의 고유한 대화 시나리오가 있다. 이 시나리오에서 정보 요청 에이전트는 불확실성을 해결하고 과제를 완수하기 위해 질문을 해야 한다. 기존 벤치마크와 달리 ClarQ-LLM에는 원래 인간 제공자를 복제하는 제공자 대화 에이전트가 포함되어 있다. 이를 통해 현재와 미래의 정보 요청 에이전트가 대화를 통해 정보 수집 과제를 완수할 수 있도록 한다. 실험 결과, LLAMA3.1 405B 정보 요청 에이전트의 최대 성공률은 60.05%에 불과해 ClarQ-LLM이 향후 연구에 강력한 도전과제를 제시한다는 것을 보여준다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Yujian Gan, ... kl. arxiv.org 09-11-2024
https://arxiv.org/pdf/2409.06097.pdfDybere Forespørgsler