本文提出了一種可擴展的語音失流利建模方法 (SSDM)。主要包括以下幾個方面:
採用基於發音動作的可擴展強制對齊。作者提出了神經變分發音建模,利用發音動作作為可擴展的語音表示。
引入連接主義子序列對齊器 (CSA),實現了失流利感知的對齊。CSA 可以有效地捕捉失流利的類型和時間。
開發了大規模模擬失流利語料庫 Libri-Dys,為進一步研究提供了基礎。
利用大型語言模型 (LLM) 實現了端到端的學習框架。
實驗結果表明,SSDM 在語音失流利檢測和可擴展性方面都優於現有的最佳方法。作者還提供了可視化失流利的方法,為交互式語言學習提供了新的思路。
翻譯成其他語言
從原文內容
arxiv.org
深入探究