Concepts de base
스파이킹 신경망과 구조화된 상태 공간 모델을 결합하여 단일 채널 음성 향상을 위한 효율적이고 성능 좋은 모델을 제안한다.
Résumé
이 논문은 단일 채널 음성 향상을 위한 새로운 모델인 "Spiking Structured State Space Model (Spiking-S4)"를 소개한다.
- 기존 딥러닝 기반 방법들은 긴 음성 시퀀스 정보를 효과적으로 활용하는 것과 높은 계산 비용 문제에 직면해왔다.
- Spiking-S4는 스파이킹 신경망의 에너지 효율성과 구조화된 상태 공간 모델의 장기 의존성 모델링 능력을 결합하여 이러한 문제를 해결한다.
- DNS Challenge와 VoiceBank+Demand 데이터셋에서 평가한 결과, Spiking-S4는 기존 인공 신경망 기반 방법들과 성능이 필적하면서도 매개변수와 FLOPs가 크게 감소하여 계산 효율성이 높다.
Stats
단일 채널 음성 향상 모델 Spiking-S4의 SI-SNR은 14.42, PESQ는 2.73, STOI는 0.89로 나타났다.
기존 인공 신경망 기반 모델인 Wave-U-Net, S4, FRCRN과 비교했을 때 Spiking-S4의 매개변수 수는 0.53M, FLOPs는 1.50 × 10^9로 크게 감소했다.
Citations
"스파이킹 신경망과 구조화된 상태 공간 모델을 결합하여 단일 채널 음성 향상을 위한 효율적이고 성능 좋은 모델을 제안한다."
"Spiking-S4는 기존 인공 신경망 기반 방법들과 성능이 필적하면서도 매개변수와 FLOPs가 크게 감소하여 계산 효율성이 높다."