本文提出了一個多通道到多通道的目標聲音提取(M2M-TSE)框架,用於從包含多個聲源的多通道混合聲音中分離出目標聲音的多通道信號。目標聲音提取(TSE)通常集中在使用類別標籤或時間激活圖等線索提取單通道目標信號。然而,為了保留和利用多通道音頻信號中的空間信息,從多通道信號中提取目標聲源的多通道信號是必要的。此外,提取的線索還可以包括方向或時間戳等空間或時間線索。為了解決這些挑戰,本文提出了一個M2M框架,可以根據時空線索提取多通道聲音信號。
實驗結果表明,基於變換器的提出架構可以成功完成在不同房間環境中合成的多通道信號的M2M-TSE任務。此外,我們還發現,多通道提取任務在DNN中引入了足夠的歸納偏差,使其能夠直接處理方向線索,而無需利用手工設計的空間特徵。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询