本文提出了一种名为Semi-BABERT的新方法,通过在BABERT的预训练过程中引入监督的词汇边界信息,来增强模型对边界信息的编码能力。具体来说:
从知识图谱和大规模语料中提取高质量的监督边界信息,并通过规则过滤和大语言模型过滤等方法对数据进行预处理。
设计了一种基于span的边界识别预训练任务(SBR),利用正负样本学习来识别文本中的词汇边界。为了解决词汇表不完整的问题,采用了PU学习的方法进行自动补充。
将SBR任务与BABERT的无监督边界感知学习(UBA)任务和BERT的掩码语言模型(MLM)任务结合,构建了Semi-BABERT的预训练目标。
实验结果表明,Semi-BABERT在中文序列标注任务(分词、词性标注、命名实体识别)上均取得了显著的性能提升,并且在其他中文自然语言理解任务(文本分类、机器阅读理解)中也展现了优异的表现。此外,本文还提出了一种"边界信息度量"(BIM)指标,可以在不需要任务特定微调的情况下评估语言模型的边界感知能力。
翻譯成其他語言
從原文內容
arxiv.org
深入探究