本文介绍了FoundaBench,这是一个专门设计用于评估中文大型语言模型基础知识能力的开创性基准。FoundaBench包括3354个多选题,涵盖常识和K-12教育科目,全面反映了日常和学术知识的广度和深度。
文章首先阐述了基础知识的定义和分类,包括常识和K-12学科知识。然后详细介绍了FoundaBench的设计原则、数据构建过程以及采用心理统计方法进行质量控制的创新做法。
接下来,文章评估了12个不同规模和语言导向的最新语言模型在FoundaBench上的表现,并使用CircularEval方法进一步分析了7个模型的结果。结果显示,预训练语料为中文的模型表现优于英文模型,但所有模型在常识推理能力方面都明显弱于记忆能力。文章还分析了一些具有挑战性的例题,进一步揭示了当前语言模型在基础知识理解方面的局限性。
总的来说,FoundaBench为理解和评估大型语言模型的基础知识能力提供了一个全新的标准,为该领域的未来发展奠定了坚实的基础。
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Wei Li,Ren M... klokken arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.18359.pdfDypere Spørsmål