本研究首次全面比較了音樂基礎模型(MFM)和語音基礎模型(SFM)在歌聲偽造檢測(SVDD)任務上的性能。實驗結果顯示,語音識別SFM(x-vector)的表現最佳,可能是因為它能更好地捕捉歌聲的音高、音色和強度等特徵。
為了進一步提升SVDD的性能,研究提出了一種新的融合框架FIONA,通過核對齊(CKA)的方式有效地結合了x-vector(SFM)和MERT-v1-330M(MFM)的特徵。FIONA取得了目前最佳的SVDD性能,等錯誤率(EER)為13.74%,優於所有單一基礎模型以及基線的融合方法。
該研究為未來SVDD系統的構建提供了指導,並啟發了更有效的基礎模型融合技術。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы