본 논문은 다채널 블라인드 음원 분리(MBASS) 문제를 다룬다. MBASS는 여러 마이크로폰으로 관측된 혼합 신호로부터 개별 음원 신호를 복원하는 기술이다.
저자들은 ILRMA 기법의 성능 향상을 위해 클러스터링된 소스 모델을 제안한다. 이 모델은 비음수 블록 텀 분해(NBTD)를 활용하여 소스 파라미터를 표현하며, 직교성 제약을 통해 명확한 해석이 가능한 잠재 벡터를 얻을 수 있다. 또한 이를 통해 소스 간 독립성을 보장할 수 있다.
실험 결과, 제안 기법인 cILRMA는 무향 환경에서 기존 ILRMA 및 확장 기법들에 비해 우수한 성능을 보였다. 또한 잔향 환경에서도 원 ILRMA를 능가하는 것으로 나타났다. 이는 cILRMA의 클러스터링된 소스 모델이 다채널 데이터의 복잡한 구조를 효과적으로 포착할 수 있기 때문이다.
저자들은 NBTD 기반 소스 모델의 핵심 파라미터인 O의 값이 증가할수록 성능이 향상되는 것을 확인했다. 또한 cILRMA가 ILRMA에 비해 약 4dB 더 나은 SDR 및 SIR 개선 성능을 보였으며, 100회 반복 수렴 후 ILRMA를 능가하는 것으로 나타났다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies