本文提出了一种利用大语言模型增强的自训练方法,以提高中文句法结构分析在跨领域应用中的性能。该方法通过结合源领域的部分句法规则和目标领域的少量句子,动态生成训练数据,增强了分析器对不同领域的适应性。
通过利用高质量的监督边界信息增强BABERT的学习,开发了一种半监督边界感知的预训练语言模型,在中文序列标注任务中取得了显著的性能提升。
构建高质量的中文指令微调数据集COIG-CQIA,以提高中文语言模型在理解和执行复杂指令方面的能力。