核心概念
提案するLiSenNetは、サブバンドダウンサンプリングとアップサンプリング、双方向再帰モジュールを使用して、バンド認識特徴とタイム・周波数パターンを効率的にキャプチャし、ノイズ検出器を使用して計算コストを節約することで、低リソース環境での実時間音声強調を実現する。
要約
本研究では、軽量な音声強調ネットワーク(LiSenNet)を提案している。LiSenNetは以下の特徴を持つ:
- サブバンドダウンサンプリングとアップサンプリングブロックを設計し、バンド認識特徴を捕捉する。
- 双方向再帰モジュールを使用して、時間と周波数の依存関係を効率的にモデル化する。
- ノイズ検出器を開発し、ノイズ領域を検出することで、適応的に音声強調を行い、計算コストを節約する。
- 最近の高リソース依存のベースラインモデルと比較して、LiSenNetは37kのパラメータ(最先端モデルの半分)と56MのMAC演算/秒しか必要としないが、同等の性能を達成できる。
統計
提案モデルLiSenNetは、37kのパラメータと56MのMAC演算/秒しか必要としない。
最先端モデルと比較して、パラメータは半分、MAC演算は1/4以下である。
引用
"提案するLiSenNetは、サブバンドダウンサンプリングとアップサンプリング、双方向再帰モジュールを使用して、バンド認識特徴とタイム・周波数パターンを効率的にキャプチャし、ノイズ検出器を使用して計算コストを節約することで、低リソース環境での実時間音声強調を実現する。"
"LiSenNetは、37kのパラメータと56MのMAC演算/秒しか必要としないが、同等の性能を達成できる。"