Core Concepts
제안된 실시간 음성 추출 방법은 병렬 처리 알고리즘을 사용하여 독립 저차원 행렬 분석(ILRMA)과 계수 제한 공간 공분산 행렬 추정(RCSCME) 부분을 병렬로 실행함으로써 실시간 처리가 가능하다. 또한 사전 정보인 대략적인 화자 방향을 활용하여 공간 정규화를 적용한 ILRMA 확장 방법을 제안함으로써 음성 추출 성능을 향상시켰다.
Abstract
제안된 실시간 RCSCME 기반 음성 추출 방법은 다음과 같이 구성된다:
병렬 처리 알고리즘을 사용하여 ILRMA와 RCSCME 부분을 병렬로 실행함으로써 실시간 처리가 가능하다. ILRMA 부분은 다중 프레임에 걸쳐 실행되고, RCSCME 부분은 프레임 단위로 실행된다.
사전 정보인 대략적인 화자 방향을 활용하여 ILRMA에 공간 정규화를 적용한다. 두 가지 공간 정규화 방법(SR-ILRMA와 NSR-ILRMA)을 제안하였으며, 이를 통해 채널 선택 오류를 줄이고 음성 추출 성능을 향상시켰다.
실험 결과, 제안된 모든 방법이 실시간 처리가 가능하였으며, SR-ILRMA와 NSR-ILRMA가 NaiveILRMA에 비해 우수한 음성 추출 성능을 보였다. 특히 NSR-ILRMA가 계산 복잡도와 분리 성능 측면에서 가장 효과적인 것으로 나타났다.
Stats
입력 SNR이 0 dB인 확산 잡음 환경에서 실험을 수행하였다.
실험에 사용된 음성 신호의 총 길이는 226초이며, 1초 단위로 나누어 184개의 구간을 평가하였다.