本論文では、楽器音色変換のための新しい手法を提案する。この手法は、ペアリングされていないモノフォニックの単一楽器オーディオデータを使用して学習された、デュアルのディフュージョンブリッジに基づいている。各ディフュージョンモデルは特定の楽器に対して、ガウシアンプライオルを用いて学習される。推論時には、ソースモデルを使ってインプットオーディオをガウシアンプライオルにマッピングし、ターゲットモデルを使ってそのガウシアンプライオルから目的の音色を再構築することで、音色変換を実現する。
提案手法は、既存の無監督の音色変換手法であるVAEGANやGaussian Flow Bridgesと比較して、Fréchet Audio Distance (FAD)とメロディ保持の指標であるPitch Distanceの両方で優れた性能を示す。また、ノイズレベルσを調整することで、メロディ保持と音色変換のバランスを制御できることを発見した。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問