Core Concepts
我们介绍了IEPILE,这是一个全面的双语(英语和中文)信息提取指令语料库,包含约0.32B个令牌。我们通过收集和清理33个现有的信息提取数据集,并引入基于模式的指令生成来挖掘出这个大规模语料库。实验结果表明,使用IEPILE可以提高大语言模型在信息提取任务上的性能,特别是在零样本泛化方面。
Abstract
本文介绍了IEPILE,这是一个全面的双语(英语和中文)信息提取指令语料库。
数据收集和清理:
从多个数据源收集了26个英语数据集和7个中文数据集,涵盖了命名实体识别、关系抽取和事件抽取等三大类信息提取任务。
采用标准化流程维护数据质量和格式统一,包括格式统一、实例去重和排除低质量数据。
基于模式的指令生成:
指令由三个元素组成:任务描述、输入文本和模式序列。
为了解决训练和评估时模式查询数量不一致以及语义混淆的问题,我们引入了:
构建硬性负面模式字典,提高语义相似模式在指令中的出现频率;
采用批量指令生成,动态限制每个指令中查询的模式数量,以提高模型在处理语义混淆模式时的鲁棒性。
最终,我们得到了包含约0.32B个令牌的IEPILE语料库。
实验结果表明,使用IEPILE可以提高大语言模型在信息提取任务上的性能,特别是在零样本泛化方面。这不仅验证了IEPILE数据集的有效性,也为在其他领域创建信息提取数据集提供了一个框架。
Stats
训练和评估时模式查询数量不一致会显著降低模型性能。
语义相似模式的共现会导致模型混淆,使用硬性负面模式字典可以提高模型在处理语义混淆模式时的准确性。