핵심 개념
다채널 입력과 다채널 출력을 지원하는 모델 아키텍처를 사용하여 실제 다채널 녹음에 대한 비지도 학습을 통해 음성 분리 성능을 향상시킬 수 있다.
초록
이 연구는 최근 제안된 Mixture Invariant Training (MixIT) 알고리즘을 다채널 설정으로 확장하였다. 다채널 입력과 다채널 출력을 지원하는 모델 아키텍처를 사용하여 AMI 코퍼스의 잔향 및 잡음이 섞인 다중 화자 녹음에 대해 비지도 학습을 수행하였다.
실험 결과:
- 다채널 모델은 단일 채널 모델에 비해 합성 및 실제 데이터에서 더 나은 분리 성능을 보였다.
- 대규모 단일 채널 데이터셋(YFCC100M)으로 사전 학습한 모델을 사용하여 합성 및 실제 AMI 데이터에 대해 반지도 학습을 수행하면 가장 좋은 성능을 달성할 수 있었다.
- 이는 다양한 실세계 음향 환경을 포함하는 일반 오디오 데이터로 사전 학습된 모델이 다채널 녹음 데이터에 효과적으로 적응할 수 있음을 보여준다.
통계
합성 AMI 데이터에서 화자 1의 입력 SI-SNR은 0.5 dB, 화자 2의 입력 SI-SNR은 -9.2 dB이다.
실제 AMI 데이터에서 화자 1의 SI-SNRi는 7.2 dB, 화자 2의 SI-SNRi는 16.4 dB이다.
인용구
"다채널 모델은 비지도 학습을 통해 실제 다채널 녹음에 적응할 수 있다는 것을 보여준다."
"대규모 단일 채널 데이터로 사전 학습된 모델을 사용하여 합성 및 실제 다채널 데이터에 대해 반지도 학습을 수행하면 가장 좋은 성능을 달성할 수 있다."