이 연구에서는 다화자 음성 인식(MS-ASR)과 대상 화자 음성 인식(TS-ASR) 기능을 단일 아키텍처에서 지원하는 새로운 프레임워크를 제안한다. 주요 내용은 다음과 같다:
사전 학습된 화자 분리 모델 Sortformer의 출력을 활용하여 화자 정보 감독 없이도 MS-ASR과 TS-ASR을 수행할 수 있는 종단 간 프레임워크를 제안한다.
화자 정보를 음성 인식 임베딩에 효과적으로 주입하는 메타-캣(Meta-Cat) 기법을 소개한다. 메타-캣은 복잡한 화자 필터링 메커니즘 없이도 MS-ASR과 TS-ASR 모두에서 강력한 성능을 달성한다.
메타-캣의 변형인 메타-캣-잔차(Meta-Cat-R)와 메타-캣-잔차-투영(Meta-Cat-RP)을 제안하여 화자 분리 정확도가 낮은 경우에도 강건한 성능을 보여준다.
MS-ASR과 TS-ASR을 동시에 수행할 수 있는 단일 모델을 제안하여 통합 다태스크 모델의 가능성을 보여준다.
실험 결과, 제안된 메타-캣 기반 모델이 기존 방식 대비 MS-ASR과 TS-ASR 모두에서 우수한 성능을 달성하였다. 또한 단일 모델로 MS-ASR과 TS-ASR을 동시에 수행할 수 있음을 확인하였다.
Till ett annat språk
från källinnehåll
arxiv.org
Viktiga insikter från
by Jinhan Wang,... på arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12352.pdfDjupare frågor