本研究采用自然语言处理工具对联合国2030可持续发展议程的数据进行增强,从而提高相关法律文本的机器学习分类性能。
首先,研究人员将原始的标注数据集与未标注的数据集合并,并使用k-means聚类算法对合并后的数据进行聚类。在聚类的基础上,通过标签传播的方式为未标注的数据赋予合成标签,从而扩充了训练数据集。
接下来,研究人员使用LSTM神经网络对原始数据集和增强数据集进行分类模型训练和评估。结果显示,使用增强数据集训练的模型在准确率和敏感度指标上均有显著提升,部分可持续发展目标的性能提升超过15%。某些目标的样本数量甚至扩大了5倍。
当存在未标注的法律文本时,基于聚类的数据增强策略是有效的选择,可以扩充可用的知识库,从而减少人工分类的工作量。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問