本文介绍了LexEval,这是一个全面的中文法律基准测试,用于评估大型语言模型在法律领域的能力。
首先,作者提出了一个法律认知能力分类法(LexAbility Taxonomy),包括记忆、理解、逻辑推理、区分、生成和伦理6个层面,系统地组织了不同的评估任务。
基于这个分类法,LexEval收集了14,150个问题,涵盖23个法律任务,是目前最大规模的中文法律评估数据集。数据来源包括现有数据集、法律考试题目和专家标注的新数据。
作者评估了38个流行的大型语言模型,包括通用模型和专门针对法律的模型。实验结果显示,现有模型在法律领域的表现还存在很大局限性。模型在记忆和理解层面表现尚可,但在逻辑推理、区分、生成和伦理层面仍然存在很大问题。
作者认为,要提升法律语言模型的能力,需要进一步的技术创新和跨学科合作。LexEval数据集和排行榜已公开发布,欢迎大家参与贡献。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania