本文介紹了一款名為 Diff-MSTC 的音樂混音風格轉移原型,它將深度學習模型 Diff-MST 整合到數位音訊工作站 (DAW) Cubase 中。Diff-MST 是一種基於深度學習的混音風格轉移模型,它可以根據參考歌曲預測多軌音樂的混音控台參數,進而產生風格相似的混音作品。
隨著音樂製作的普及化,越來越多的業餘愛好者、半專業人士和專業人士開始參與音樂創作。這些不同技術水平的使用者對音樂製作工具的需求也各不相同。業餘愛好者希望使用自動化系統,而半專業人士和專業人士則更傾向於使用可控且精準的輔助系統。
音樂混音是一個複雜的過程,需要調整錄製的音樂以產生具有美感、凝聚力和情感共鳴的混音作品。這個過程需要使用各種音訊效果器,例如增益、聲像、均衡器 (EQ)、壓縮器、混響器等。由於實現理想混音效果所需的技術和工具的複雜性,掌握這門技術需要多年的培訓和經驗。
自動混音是一個致力於輔助、自動化和協助音樂混音過程各個方面的研究領域。這些工具旨在幫助業餘愛好者學習音樂製作知識並獲得令人滿意的音質,同時也為專業人士簡化技術要求高的任務並加快迭代速度。除了過去探索的許多經典和工程方法外,基於深度學習的方法在該領域顯示出巨大的潛力。
Diff-MST 是一種使用參數估計 (PE) 方法進行混音風格轉移的深度學習模型。該系統接受多軌音樂和參考歌曲作為輸入,並提供混音控台的控制參數以及根據參考歌曲風格預測的混音,如圖 1 所示。它利用了 dasp-pytorch 庫中的可微分效果器,促進了端到端的訓練。
Diff-MSTC 包含一個面板,使用者可以在其中從 Cubase 專案中靜音的音軌中選擇音訊檔案,或從各種音樂類型中選擇建議的歌曲作為參考。然後,系統會提示使用者選擇參考歌曲的片段。接下來,專案中的所有音軌(靜音的音軌除外)都將被視為模型的輸入音軌。使用者還必須使用播放游標從專案中選擇一個片段作為輸入,用於生成嵌入。預測混音的準確度很大程度上取決於所選輸入音軌和參考歌曲的片段。
在最後一步中,使用者指示混音助手生成混音。系統會預測效果器的控制參數。然後,這些預測值將應用於每個活動音軌的通道條上的效果器控制項。然後,使用者可以播放預測的混音,並對音訊混音進行任何必要的調整和改進。
Diff-MSTC 旨在彌合學術研究中關於 DAW 整合智慧混音系統可控性的差距。彌合這一差距將為改進混音系統的設計提供寶貴的見解,以更好地滿足使用者需求。此外,這將使我們能夠評估這些系統對人類的影響,並最終開發以人為本的解決方案。
翻譯成其他語言
從原文內容
arxiv.org
深入探究