본 논문에서는 실제 회의 환경에서 원거리 마이크를 사용한 음성 인식 성능을 향상시키기 위해 빔포밍과 화자 속성 기반 자동 음성 인식(SA-ASR)을 결합한 새로운 접근 방식을 제안합니다.
The proposed overlapped encoding separation (EncSep) and single-speaker information guidance serialized output training (GEncSep) methods improve the performance of multi-speaker automatic speech recognition by effectively utilizing the benefits of the connectionist temporal classification (CTC) and attention hybrid loss.