음성 인식 모델의 성능을 새로운 도메인에 지속적으로 확장할 수 있는 효율적인 순차적 편집 기법을 제안한다.
다화자 음성 인식에서 CTC 기반 모델이 화자 분리 능력을 가지고 있으며, 이를 활용한 화자 인식 CTC 기법이 다화자 음성 인식 성능을 향상시킬 수 있다.
제안된 모델은 사전 학습된 화자 분리 모듈의 출력을 활용하여 다화자 음성 인식과 대상 화자 음성 인식을 모두 수행할 수 있는 종단 간 프레임워크를 제공한다. 메타-캣(Meta-Cat) 기법을 통해 화자 정보를 음성 인식 임베딩에 효과적으로 주입하여 복잡한 화자 필터링 메커니즘 없이도 강력한 다화자 음성 인식 성능을 달성한다.
채널 차이로 인한 음성 인식 성능 저하를 해결하기 위해 채널 추출 기술과 생성적 적대 신경망을 활용한 채널 인식 데이터 시뮬레이션 방법을 제안한다.
제로 샷 텍스트 투 스피치 데이터 증강을 통해 저자원 억양 음성 데이터에 대한 자동 음성 인식 성능을 향상시킬 수 있다.
약하게 감독된 음소 기반 다국어 사전 학습 모델을 사용하여 저자 자원이 제한된 Iu Mien 언어에 대한 음성 인식 성능을 향상시킬 수 있다.
CUSIDE-T는 RNN-T 기반 음성 인식 모델에 CUSIDE 방법론을 적용하여 낮은 지연 시간과 높은 인식 정확도를 달성한다. 또한 언어 모델 재점수화를 통해 성능을 더욱 향상시킨다.
단일 화자 음성 인식 모델인 Whisper를 활용하여 다화자 대화 상황에서 화자 구분 정보를 활용해 효과적으로 각 화자의 발화를 인식할 수 있는 방법을 제안한다.
대규모 언어 모델의 문맥 학습 능력을 활용하여 검색 기반 생성 기법을 통해 음성 인식 정확도를 향상시킬 수 있다.
중첩 인코딩을 분리하여 CTC 손실을 활용함으로써 인코더 표현을 개선하고, 분리된 단일 화자 정보를 활용하여 디코딩 성능을 향상시킨다.