이 논문은 회의 녹음 데이터에서 화자 분리, 화자 구분, 그리고 음성 인식을 수행하는 모듈식 파이프라인을 제안한다.
먼저, TF-GridNet 아키텍처를 사용하여 연속 음성 분리(CSS)를 수행한다. CSS는 다화자 음성을 고정된 수의 출력 채널(일반적으로 2개)에 매핑하여 출력 채널 간에 화자 중첩이 없도록 한다.
다음으로, 음성 활동 검출(VAD)을 통해 분리된 신호를 세그먼트화하고, 자동 음성 인식(ASR) 모듈을 사용하여 인식을 수행한다. ASR 모듈은 단어 및 문장 경계 정보를 제공하며, 이를 활용하여 화자 구분을 지원하는 세그먼트 세분화 기법을 제안한다.
제안된 세그먼트 세분화 기법은 문장 경계와 단어 경계 정보를 활용하여 화자 변화를 더 정확하게 탐지할 수 있다. 마지막으로, 화자 임베딩 기반 클러스터링을 통해 화자 구분을 수행한다.
실험 결과, 제안된 파이프라인은 Libri-CSS 데이터셋에서 기존 최신 기술 대비 20% 향상된 cpWER(Concatenated Minimum Permutation Word Error Rate) 성능을 달성하였다. 이는 음성 분리 후 ASR과 화자 구분을 수행하는 모듈식 접근법의 잠재력을 보여준다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Thilo von Ne... a las arxiv.org 05-07-2024
https://arxiv.org/pdf/2309.16482.pdfConsultas más profundas