음성 신호에 따라 다양한 얼굴 움직임을 합성하는 방법을 제안한다. 다양한 얼굴 움직임을 생성하기 위해 코드 다양성을 장려하는 손실 함수를 사용하며, 부분적인 얼굴 움직임 제어를 위해 순차적 모델링 기법을 도입한다.
실제 대화 환경에서 음성 인식 모델의 성능이 크게 저하되며, 이는 현재 사용되는 벤치마크 데이터셋이 실제 대화 상황을 충분히 반영하지 못하기 때문이다.
실시간 음성 인식 모델을 사용하여 실시간 자막을 생성할 때 오류율과 지연 시간의 관계를 평가하고 최적의 알고리즘을 찾는다.
이 논문은 아일랜드어 저자원 음성 인식(ASR)과 방언 식별(DID)을 위해 하이브리드 CTC/Attention 인코더-디코더 모델을 탐구합니다. 중간 CTC(InterCTC)를 활용하여 다중 작업 학습을 수행하고, 이를 통해 ASR과 DID 성능을 향상시킬 수 있음을 보여줍니다.
최근 데이터 기반 음성 인식 기술의 발전으로 아동 음성 인식 성능이 크게 향상되어, 아동과 로봇의 실시간 상호작용이 가능해졌다.
대규모 언어 모델은 다양한 도메인과 과제에서 뛰어난 성능을 보이지만, 음성과 텍스트의 정확한 정렬과 깊은 상호작용이 필요한 음성 질문 답변 과제에서는 여전히 어려움을 겪고 있다. 이 연구에서는 자유형 음성 질문 답변 데이터셋 LibriSQA를 구축하고, 대규모 언어 모델과 음성 특징 추출기를 결합한 경량 엔드-투-엔드 프레임워크를 제안하여 이 과제에서 유의미한 성과를 달성했다.
이 연구는 세네갈에서 가장 널리 사용되는 언어인 볼로프어로 구현된 최초의 자동 음성 어시스턴트의 개념 증명을 제시합니다. 이 음성 챗봇은 프랑스의 Orange Innovation, 세네갈의 Orange Senegal(별칭 Sonatel) 및 다카르에 기반을 둔 소규모 IT 기업 ADNCorp 간의 협력 연구 프로젝트의 결과입니다. 이 음성 챗봇의 목적은 가장 자연스러운 의사소통 수단인 음성을 통해 Orange Senegal의 Sargal 충성도 프로그램에 대한 정보를 고객에게 제공하는 것입니다.
다이얼렉트 특성을 모델링하기 위해 어댑터 모듈을 활용하여 기존 단일 다이얼렉트 언어 모델을 확장하여 세계 영어 언어 모델을 개발하였다.
다중 모달 정보(음향, 어휘, ASR 디코더 신호)를 활용하여 가상 비서에 대한 사용자 발화를 효과적으로 탐지할 수 있다.
대형 언어 모델을 활용하여 음향 정보, ASR 디코더 신호 및 텍스트 정보를 결합함으로써 음성 명령 감지 성능을 향상시킬 수 있다.