핵심 개념
CLongEval는 중국어 Long-Context 대형 언어 모델을 평가하기 위한 벤치마크입니다.
초록
최근 연구의 초점은 중국어에 능숙한 Long-Context LLMs의 평가에 있습니다.
CLongEval은 7가지 작업과 7,267개의 예제로 구성되어 있습니다.
중요한 능력인 정보 획득과 추론을 평가하기 위한 작업과 데이터셋이 포함되어 있습니다.
8가지 Long-Context LLMs를 평가하고 세부 능력에 대한 심층 분석을 제공합니다.
통계
모델 성능: Moonshot-v1-128K는 StNlab에서 89.01%의 성능을 보이며, GPT-4-Turbo는 79.70%의 성능을 보입니다.
모델 성능: InternLM2-7B-32K는 LStQA에서 49.55%의 성능을 보이며, LCvMem에서 58.64%의 성능을 보입니다.
모델 성능: GPT-4-Turbo는 KpRet에서 84.24%의 성능을 보이며, TblQry에서 82.35%의 성능을 보입니다.
인용구
"CLongEval은 중국어 Long-Context LLMs를 평가하기 위한 첫 번째 벤치마크입니다."
"CLongEval은 정보 획득과 추론을 평가하기 위한 작업과 데이터셋을 포함하고 있습니다."