本研究提出了一种基于话语重写的无监督对话主题分割模型(UR-DTS)。该模型通过结合话语重写(Utterance Rewriting, UR)技术和无监督学习算法,有效利用了未标记的对话数据中的有用线索,以提高主题分割的准确性。
主要内容包括:
提出了一种新颖的无监督对话主题分割方法UR-DTS,该方法结合了话语重写技术和无监督学习算法。通过重写对话以恢复共指和省略等信息,有效利用了未标记对话中的有用线索。
与现有的无监督模型相比,UR-DTS在主题分割的准确性上显著提升。在DialSeg711数据集上,绝对误差分数和WD指标分别提高了约6%。在更复杂的Doc2Dial数据集上,绝对误差分数和WD指标也分别提高了约3%和2%,达到了SOTA水平。
通过案例研究,分析了话语重写如何有效恢复对话中的共指和省略信息,从而提高主题相似性的语义计算,最终提升主题分割的准确性。
总之,本研究提出的UR-DTS模型在捕捉对话主题细微差别方面非常有效,同时也展示了利用未标记对话数据的价值和挑战。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Xia Hou, Qif... lúc arxiv.org 09-13-2024
https://arxiv.org/pdf/2409.07672.pdfYêu cầu sâu hơn