MixITを使用した無監督学習により、実世界の単一およびマルチチャンネル音声録音でのモデル適応が可能であることが示されました。
本研究では、変換器の自己注意メカニズムの非効率性を解決するため、選択的状態空間モデルであるMambaを音声分離に導入した。提案するデュアルパスMambaモデルは、短期および長期の双方向依存性をモデル化することで、既存の変換器ベースのモデルと同等以上の性能を達成しつつ、パラメータ数を大幅に削減している。
状態空間モデルを活用することで、従来のCNNやTransformerベースの手法の限界を克服し、音声分離の性能を大幅に向上させることができる。