本研究首次全面比較了音樂基礎模型(MFM)和語音基礎模型(SFM)在歌聲偽造檢測(SVDD)任務上的性能,並提出了一種新的融合框架FIONA,能夠有效地結合不同基礎模型的優勢,取得了目前最佳的SVDD性能。
本文提出了一個新的任務 - 歌唱風格字幕,旨在從給定的音頻剪輯中捕捉歌手的聲音和音樂特徵,並以文字描述的形式表達出來。為此,作者開發了一個名為S2Cap的全面數據集,包含了各種聲音和音樂屬性的註釋。此外,作者還提出了一個強大的基線算法,利用正向對學習和聲音分離技術來改善模型的性能。
本文提出了一種名為Period Singer的新型端到端歌聲合成模型,利用變分推論來建模週期性和非週期性成分,以產生自然的音波形。