本研究提出了一種基於話語重寫的無監督對話主題分割模型(UR-DTS)。主要包括以下內容:
問題描述:對話主題分割旨在識別對話中的片段邊界。傳統的無監督方法主要依賴於語義相似性或對話連貫性來評估主題相似性,但這些方法往往無法全面捕捉主題相似性。此外,大量未標記的對話數據尚未得到充分利用。
模型架構:UR-DTS 由話語重寫模塊、主題編碼器、連貫性編碼器和分割算法組成。話語重寫模塊通過恢復共指和省略信息,提高了主題相似性的語義計算。主題編碼器和連貫性編碼器分別學習主題感知的話語表示和對話連貫性,最終用於計算相關性得分並進行分割。
實驗結果:在兩個標準數據集DialSeg711和Doc2Dial上,UR-DTS 顯著優於現有的無監督模型,在絕對誤差分數和WD指標上分別達到11.42%/12.97%和35.17%/38.49%的SOTA性能。這表明該模型在捕捉對話主題的細微差別方面非常有效,同時也展示了利用未標記對話的價值和挑戰。
總之,本研究提出的UR-DTS 模型通過話語重寫技術有效利用了未標記對話數據,在無監督對話主題分割任務上取得了顯著的性能提升,為進一步利用無標記對話數據開拓了新的方向。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы