基於VAE的語音聲韻對齊:使用梯度退火和SSL聲學特徵
本文提出了一種準確的語音聲韻對齊模型,適用於語音分析和視頻內容創作。我們提出了一種基於變分自編碼器(VAE)的對齊模型,以無監督的方式搜索使用編碼的聲學和語言嵌入的可能路徑。我們的模型基於一個TTS對齊(OTA)模型,並擴展以獲得聲韻邊界。具體而言,我們採用VAE架構以保持嵌入和輸入的一致性,應用梯度退火以避免訓練過程中陷入局部最優,並引入基於自監督學習(SSL)的聲學特徵輸入和狀態級語言單元,以利用豐富和詳細的信息。實驗結果表明,與傳統的OTA模型、基於CTC的分割模型和廣泛使用的工具MFA相比,所提出的模型生成的聲韻邊界更接近註釋的邊界。