核心概念
為了解決傳統音源分離模型難以處理多種分離任務(如語音增強、音樂分離等)的問題,本文提出了一種基於任務導向的統一音源分離模型 (TUSS),該模型使用可學習的提示來指定要分離的音源,並根據給定的提示改變其行為,從而使其能夠處理所有主要的分離任務,包括相互矛盾的任務。
摘要
文獻摘要
書目資訊
Saijo, K., Ebbers, J., Germain, F. G., Wichern, G., & Le Roux, J. (2024). Task-Aware Unified Source Separation. arXiv preprint arXiv:2410.23987.
研究目標
本研究旨在開發一種單一模型,以解決多種音源分離任務,例如語音增強、語音分離、聲音事件分離、音樂源分離和電影音訊源分離,這些任務過去通常需要針對特定任務訓練專門的模型。
研究方法
- 本文提出了一種基於任務導向的統一音源分離模型 (TUSS),該模型使用可學習的提示來指定要分離的音源。
- TUSS 模型採用 Transformer 架構,並包含一個編碼器、可學習提示、跨提示模組、條件目標音源提取模組和解碼器。
- 跨提示模組將輸入混合音訊的編碼特徵與可學習提示共同建模,以根據提示調整模型行為。
- 條件目標音源提取模組則根據每個提示提取指定的音源。
- 本文使用 LibriVox、VCTK、WSJ0、FSD50K、WHAM!、DEMAND、MUSDB-HQ、MOISESDB 和 FMA 等數據集訓練和評估 TUSS 模型。
主要發現
- 實驗結果表明,TUSS 模型能夠成功處理五種主要音源分離任務,並優於傳統的單一模型。
- 與針對特定任務訓練的專門模型相比,TUSS 模型在某些任務上的性能仍有差距,但在處理多種任務的靈活性方面具有優勢。
- 提示丟失訓練有助於 TUSS 模型在僅需分離部分音源的情況下保持良好的性能。
主要結論
- 基於條件模型的 TUSS 模型更適合處理多種音源分離任務,包括目標相互矛盾的任務。
- 使用可學習提示來指定分離目標為解決音源分離任務的多樣性提供了一種有效的方法。
- 未來研究方向包括支持說話者 ID 和文本作為提示,以進一步提高模型的靈活性。
研究意義
本研究提出了一種新的音源分離模型架構,為開發更通用和靈活的音源分離系統提供了新的思路。
研究限制與未來方向
- TUSS 模型在某些任務上的性能仍落後於專門模型,未來需要進一步提升模型的性能。
- 未來研究可以探索更豐富的提示形式,例如說話者 ID 和文本,以擴展模型的應用範圍。
統計資料
訓練過程中,混合音訊的音源數量從 2 到 4 隨機抽樣。
模型訓練使用了 LibriVox、VCTK、WSJ0、FSD50K、WHAM!、DEMAND、MUSDB-HQ、MOISESDB 和 FMA 等數據集。
中型 TUSS 模型有 11.1M 個參數,而大型模型有 38.2M 個參數。
模型訓練使用了 150 個 epochs,每個 epoch 包含 2.5k 個訓練步驟。
訓練過程中,學習率從 0 線性增加到 1e-3(中型模型)或 5e-4(大型模型)。
引述
"While single separation models that can separate speech, musical instruments, and environmental sounds well could be obtained by training on large-scale data, the models had a fixed number of outputs and needed to be fine-tuned on each downstream task to reach satisfactory performance."
"To go beyond these limitations and truly address all the major source separation tasks mentioned earlier and potentially others, we propose a task-unified source separation model."
"In our experiments, we demonstrate that the proposed model successfully handles multiple tasks with a single model, allowing a user to flexibly control the desired outputs for a given mixture at inference time."