本研究提出了一种基于话语重写的无监督对话主题分割模型(UR-DTS)。该模型通过结合话语重写(Utterance Rewriting, UR)技术和无监督学习算法,有效利用了未标记对话中的有用线索,以提高主题分割的准确性。
主要内容包括:
提出了一种新颖的无监督对话主题分割方法UR-DTS,通过重写对话以恢复共指和省略等信息,从而更好地利用未标记对话中的有用线索。
与现有的无监督模型相比,UR-DTS在主题分割的准确性上显著提升。在DialSeg711数据集上,绝对误差分数和WD指标分别提高约6%;在更复杂的Doc2Dial数据集上,绝对误差分数和WD指标分别提高约3%和2%,达到SOTA水平。
通过案例分析,展示了话语重写在恢复对话中的共指和省略信息方面的作用,从而提高了模型学习主题相似性的能力,最终提升了主题分割的准确性。
总之,本研究提出的UR-DTS模型有效利用了未标记对话数据,在捕捉对话主题细微差别方面表现出色,为在对话系统中利用无标记对话数据开辟了新的途径。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Xia Hou, Qif... lúc arxiv.org 09-13-2024
https://arxiv.org/pdf/2409.07672.pdfYêu cầu sâu hơn