Core Concepts
INSTRUCTIE 是一个双语指令数据集,旨在提高大型语言模型在信息抽取任务上的性能。该数据集涵盖12个不同领域,包含174,670个中文实例和189,406个英文实例。
Abstract
本文介绍了INSTRUCTIE,一个双语指令数据集,用于提高大型语言模型在信息抽取任务上的性能。
首先,作者提出了KG2Instruction框架,用于自动生成这种指令数据集。该框架包括以下步骤:
从维基百科和维基数据中提取实体提及和关系三元组。
利用消歧策略,为每个实体提及分配唯一的维基数据ID。
引入领域约束,只保留与领域相关的关系三元组。
利用预训练的信息抽取模型补充缺失的三元组。
使用自然语言推理模型过滤掉不合理的三元组。
基于KG2Instruction框架,作者构建了INSTRUCTIE数据集,涵盖12个不同领域,包含174,670个中文实例和189,406个英文实例。
作者还对INSTRUCTIE数据集进行了全面的评估,包括零样本学习、上下文学习和微调等设置。结果表明,在INSTRUCTIE数据集上微调的大型语言模型不仅在指令式信息抽取任务上表现出色,还展现了一定的跨领域泛化能力。
此外,作者还进行了深入的分析,包括KG2Instruction框架各步骤的贡献、模型在未见过的schema上的泛化能力,以及模型预测错误的类型。这些分析为进一步提高指令式信息抽取模型的性能提供了有价值的洞见。
Stats
在零样本学习设置下,Baichuan2-13B-Chat模型在中文任务上的整体微F1为12.11,在英文任务上为11.44。
在上下文学习设置下,Baichuan2-13B-Chat模型在中文任务上的整体微F1为23.38,在英文任务上为24.50。
在微调设置下,Baichuan2-13B-Chat模型在中文任务上的整体微F1为72.18,在英文任务上为64.75。