核心概念
提出一個多通道到多通道的目標聲音提取框架,利用方向和時間戳線索從複雜的混合聲音中提取目標聲音的多通道信號。
摘要
本文提出了一個多通道到多通道的目標聲音提取(M2M-TSE)框架,用於從包含多個聲源的多通道混合聲音中分離出目標聲音的多通道信號。目標聲音提取(TSE)通常集中在使用類別標籤或時間激活圖等線索提取單通道目標信號。然而,為了保留和利用多通道音頻信號中的空間信息,從多通道信號中提取目標聲源的多通道信號是必要的。此外,提取的線索還可以包括方向或時間戳等空間或時間線索。為了解決這些挑戰,本文提出了一個M2M框架,可以根據時空線索提取多通道聲音信號。
實驗結果表明,基於變換器的提出架構可以成功完成在不同房間環境中合成的多通道信號的M2M-TSE任務。此外,我們還發現,多通道提取任務在DNN中引入了足夠的歸納偏差,使其能夠直接處理方向線索,而無需利用手工設計的空間特徵。
統計資料
在複雜的混合聲音環境中,提取目標聲音的多通道信號可以保留和利用空間信息,對於3D音頻、虛擬現實音頻等應用非常重要。
在聲音監視系統中,通道間時延或相位差是確定目標聲源方向或位置的關鍵。
與單通道提取相比,多通道提取任務在DNN中引入了足夠的歸納偏差,使其能夠直接處理方向線索,而無需利用手工設計的空間特徵。
引述
"為了保留和利用多通道音頻信號中的空間信息,從多通道信號中提取目標聲源的多通道信號是必要的。"
"提出了一個M2M框架,可以根據時空線索提取多通道聲音信號。"
"實驗結果表明,基於變換器的提出架構可以成功完成在不同房間環境中合成的多通道信號的M2M-TSE任務。"