대규모 자기 지도 학습 모델인 wav2vec 2.0을 활용하여, 비유창 음성 데이터셋에 대한 미세 조정과 데이터 증강을 통해 말더듬 음성 인식 성능을 향상시킬 수 있다.
본 연구는 최근 제안된 Mamba 상태 공간 모델을 활용하여 효율적인 스트리밍 음성 인식 모델을 개발하였다. 또한 유니모달 집계 기법을 통해 토큰 경계를 명시적으로 탐지하고 토큰 출력을 트리거하는 방식을 제안하였다.
하이브리드 자기회귀 트랜스듀서(HAT) 기반 음성 인식 모델의 성능을 향상시키기 위해 내부 음향 모델(IAM) 학습 전략과 이중 공백 임계값 설정 기법을 제안한다.
다화자 음성 인식을 위해 정렬 정보 없이도 표준 RNN 트랜스듀서 구조를 사용할 수 있는 새로운 학습 방법을 제안한다.
음성 대화 시스템의 응답 시간을 단축하기 위해 음성 인식 모델이 발화 중에 미래 단어를 예측하고 발화 종료 시점을 추정할 수 있는 기능을 제공한다.
제안된 SICL-AED 모델은 효율적인 장문 음성 인식을 달성하고 문맥 정보를 활용하여 화자 적응 및 문맥 편향 개선을 가능하게 한다.
Paraformer-v2는 기존 Paraformer 모델의 한계를 극복하고 다국어 적응성과 소음 강건성을 향상시킨 비자기회귀 음성 인식 모델이다.
문맥 정보를 더 효과적으로 활용하여 희귀 단어 인식 성능을 향상시키는 Deep CLAS 모델을 제안한다.
대규모 음성-텍스트 기반 언어 모델을 활용하여 음성 인식 성능을 향상시킬 수 있다.
생물학적 청각 지각에 영감을 받은 음향 특징을 사용하면 현대 딥러닝 기반 자동 음성 인식 시스템의 정확성과 강건성을 크게 향상시킬 수 있다.