本文首先提出了一种三层次的中文段落级主题结构表示方法,包括段落边界、主题边界、子标题和标题。这种表示方法可以更全面地捕捉文档的高层次主题结构。
为了填补中文段落级主题结构资源的空白,作者设计了一种双阶段人机协作的注释方法,构建了最大规模和高质量的中文段落级主题结构语料库(CPTS)。第一阶段采用启发式自动抽取方法从大规模新闻文本中提取主题结构,第二阶段由人工验证者对自动抽取的结果进行校验,确保语料库的语义正确性。最终,CPTS包含14393篇文档,质量较高(94.79%的标注者一致率和0.849的Kappa值)。
为了验证CPTS的可计算性,作者在主题分割和大纲生成两个基本任务上构建了多个强基线模型,包括ChatGPT。实验结果表明,基于CPTS训练的模型在这两个任务上都取得了较好的性能。此外,初步实验还证明了CPTS在下游任务(如话语分析)中的有用性。
总之,本文提出的中文段落级主题结构表示方法和构建的CPTS语料库,为中文主题结构相关研究提供了有价值的资源,并为进一步提高主题分割和大纲生成的性能奠定了基础。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Feng Jiang,W... at arxiv.org 03-27-2024
https://arxiv.org/pdf/2305.14790.pdfDeeper Inquiries