本文提出了一種名為InstructSing的新型神經聲碼器,旨在實現訓練時間和生成聲音質量之間的平衡。InstructSing由三個主要部分組成:InstructNet、BridgeNet和ExWaveNet。
InstructNet首先生成8kHz的諧波和噪聲序列作為指導信號,以加快後續的對抗性訓練。BridgeNet則將這些序列進一步精煉,生成包含豐富週期性和非週期性信息的潛在變量序列。最後,ExWaveNet利用這些潛在變量和mel頻譜圖生成48kHz的高保真歌聲。
此外,本文還提出了一種改進的多分辨率多頻帶STFT判別器(MR-MBSD),能夠從頻域捕捉長期依賴關係。
實驗結果表明,InstructSing在訓練速度和聲音質量方面都優於其他神經聲碼器,且具有良好的泛化能力。與其他模型相比,InstructSing只需要十分之一的訓練步數即可達到可比的性能。
翻譯成其他語言
從原文內容
arxiv.org
深入探究