이 논문에서는 다화자 음성 인식을 위한 새로운 정렬 없는 학습 기반 트랜스듀서 모델(MT-RNNT-AFT)을 제안한다. MT-RNNT-AFT는 표준 RNN 트랜스듀서 구조를 사용하면서도 정렬 정보 없이 학습할 수 있다. 이를 위해 각 화자의 등장 순서를 나타내는 프롬프트 토큰을 사용하여 목표 레이블을 생성한다. 이를 통해 MT-RNNT-AFT는 외부 ASR 시스템의 정렬 정보 없이도 학습할 수 있으며, 단일 인코더 처리만으로 모든 화자의 음성을 인식할 수 있다. 또한 지식 증류와 내부 언어 모델 통합을 통해 성능을 더욱 향상시켰다. 실험 결과, MT-RNNT-AFT는 정렬 정보를 사용하는 기존 방식과 유사한 성능을 달성하면서도 훨씬 간단한 학습 과정을 가진다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Takafumi Mor... kl. arxiv.org 10-01-2024
https://arxiv.org/pdf/2409.20301.pdfDybere Forespørgsler