核心概念
다화자 음성 인식을 위해 정렬 정보 없이도 표준 RNN 트랜스듀서 구조를 사용할 수 있는 새로운 학습 방법을 제안한다.
摘要
이 논문에서는 다화자 음성 인식을 위한 새로운 정렬 없는 학습 기반 트랜스듀서 모델(MT-RNNT-AFT)을 제안한다. MT-RNNT-AFT는 표준 RNN 트랜스듀서 구조를 사용하면서도 정렬 정보 없이 학습할 수 있다. 이를 위해 각 화자의 등장 순서를 나타내는 프롬프트 토큰을 사용하여 목표 레이블을 생성한다. 이를 통해 MT-RNNT-AFT는 외부 ASR 시스템의 정렬 정보 없이도 학습할 수 있으며, 단일 인코더 처리만으로 모든 화자의 음성을 인식할 수 있다. 또한 지식 증류와 내부 언어 모델 통합을 통해 성능을 더욱 향상시켰다. 실험 결과, MT-RNNT-AFT는 정렬 정보를 사용하는 기존 방식과 유사한 성능을 달성하면서도 훨씬 간단한 학습 과정을 가진다.
統計資料
다화자 음성 인식 성능은 단일 화자 음성 인식 성능에 비해 크게 저하된다.
기존 다화자 음성 인식 모델은 복잡한 구조나 정렬 정보 등의 추가 정보가 필요하다.
제안한 MT-RNNT-AFT 모델은 정렬 정보 없이도 표준 RNN 트랜스듀서 구조를 사용할 수 있다.
引述
"MT-RNNT-AFT can decode all speakers' speech in a first-in-first-out manner, requiring just one round of encoder processing."
"MT-RNNT-AFT can output each speaker's hypothesis individually, unlike MT-RNNT-tSOT, which outputs a single serialized transcription in a more complex format."
"Experiments demonstrate that MT-RNNT-AFT achieves comparable performance to MT-RNNT-tSOT in offline mode, even though MT-RNNT-AFT does not use any rich alignments from external ASR systems."