本文提出了一個新的任務 - 歌唱風格字幕,旨在從給定的音頻剪輯中捕捉歌手的聲音和音樂特徵,並以文字描述的形式表達出來。這個任務比一般的語音字幕更加複雜,因為它需要理解歌手的聲音音色、情感表達等各種細節特徵。
為了解決這一問題,作者開發了一個名為S2Cap的全面數據集。S2Cap包含了71,215個字幕,涵蓋了9種聲音和音樂屬性,如音高、音量、節奏、情緒等,遠超以往的語音字幕數據集。
此外,作者還提出了一個強大的基線算法。首先,他們利用正向對學習的方法,將預訓練的音頻編碼器與文本編碼器的表示空間對齊,解決了編碼器和解碼器之間的表示不一致問題。其次,他們利用聲音分離技術,讓模型更多地關注歌手的人聲特徵,而不是音樂伴奏,從而生成更準確的歌唱風格字幕。
實驗結果表明,作者提出的方法在各種評估指標上都取得了顯著的改善,為這一新興領域奠定了良好的基礎。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы