Khái niệm cốt lõi
본 연구는 정적 및 이동 화자 시나리오에서 장기 스트리밍 다채널 음성 향상을 위한 온라인 SpatialNet을 제안한다. 제안된 방법은 공간 정보를 활용하여 목표 음성과 간섭음을 구분하며, 선형 복잡도의 스트리밍 네트워크 아키텍처와 단기 학습 후 장기 미세 조정 전략을 통해 장기 오디오 스트림에 대한 뛰어난 성능을 달성한다.
Tóm tắt
본 연구는 기존에 제안된 오프라인 SpatialNet을 온라인 네트워크로 확장하여 장기 스트리밍 다채널 음성 향상을 수행한다.
오프라인 SpatialNet은 공간 정보를 활용하여 목표 음성과 간섭음을 구분하는 우수한 성능을 보였다. 이를 온라인 처리에 적용하기 위해 다음과 같은 접근을 취한다:
입력 컨볼루션 레이어와 교차 대역 블록은 그대로 유지하고,
시간 의존적인 공간 정보를 학습하는 협대역 블록을 온라인 처리에 적합한 세 가지 변형 모델(MSA, Retention, Mamba)로 대체한다.
장기 오디오 스트림 처리를 위해 단기 학습 후 장기 미세 조정 전략을 제안한다. 이를 통해 단기 학습만으로는 발생할 수 있는 성능 저하 문제를 해결한다.
실험 결과, 제안된 온라인 SpatialNet, 특히 Mamba 변형 모델이 정적 및 이동 화자 시나리오에서 모두 우수한 음성 향상 성능을 달성했다.
Thống kê
정적 화자 시나리오에서 제안 모델의 SI-SDR은 13.4 ~ 15.2 dB로 기존 방법 대비 향상되었다.
이동 화자 시나리오에서 제안 모델의 SI-SDR은 9.2 ~ 12.2 dB로 기존 방법 대비 향상되었다.
Trích dẫn
"오프라인 SpatialNet은 공간 정보를 활용하여 목표 음성과 간섭음을 구분하는 우수한 성능을 보였다."
"단기 학습 후 장기 미세 조정 전략을 통해 장기 오디오 스트림 처리 시 발생할 수 있는 성능 저하 문제를 해결했다."