本文提出了一種詞彙級語調模型,適用於俄語並可推廣到其他語言。該模型旨在部分消除與詞中重音位置不同有關的變異性。通過同時應用音高簡化和動態時間扭曲聚類來實現。
該模型可用作語調研究工具,也可作為文本到語音系統中韻律描述的基礎。作為模型的優勢,展示了它與現有語調系統的關係,以及使用語言模型進行韻律預測的可能性。最後,演示了系統對參數變化的穩健性。
作者首先描述了 Momel 算法,用於分析和合成語調輪廓。然後,通過時間和頻率歸一化,得到了詞彙級的標準化語調模式。接下來,使用基於動態時間扭曲的聚類方法,將這些模式分組為有限的幾個簇。
作者分析了這些聚類的特性,並展示了它們在不同語言(俄語、英語和哈薩克語)之間的相似性。此外,還討論了如何將這些聚類與現有的語調系統(如 ToBI 和 INTSINT)相關聯。
最後,作者探討了使用基於 BERT 的語言模型來預測詞彙級語調聚類的可能性。這提供了一種解釋性的方法來控制韻律,並可以應用於跨語言 TTS 系統。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Tomilov A.A.... lúc arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20374.pdfYêu cầu sâu hơn