本論文は、単一チャンネルの音声強化のためのスパイキング構造化状態空間モデル(Spiking-S4)を提案している。
まず、入力の雑音音声信号をSTFTによって時間周波数領域に変換する。その後、線形エンコーダによって入力uを生成し、N個のスパイキングS4層とデコーダを通して、振幅マスクˆMを出力する。最後に、この振幅マスクと元の位相情報を組み合わせ、ISTFTによって時間領域の強化音声を生成する。
スパイキングS4層では、L個の独立したS4カーネルに入力uを通し、発火層とLIFノードを経て、最終的に線形デコーダによって実数領域に変換される。また、情報損失を抑えるため、ショートカット接続が導入されている。
提案手法のSpiking-S4は、DNS Challenge 2023のデータセットとVoiceBank+Demandデータセットで評価され、既存のANN手法と同等の性能を示しつつ、パラメータ数とFLOPsが大幅に削減されることが確認された。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies