음성 명령어 분류 작업을 위해 합성 음성 데이터를 활용하는 방법을 제안하며, ASR 기반 필터링과 SSL 특징을 활용한 도메인 적응을 통해 합성 데이터의 품질을 향상시킬 수 있음을 보여줌.
i-벡터 모델을 초기 모델로 사용하여 반복적 의사 레이블링(IPL) 프레임워크를 통해 화자 특성 표현을 학습할 수 있으며, 이는 강력한 자기 지도 학습 모델을 사용하는 것과 유사한 성능을 달성할 수 있다.
이 논문은 우르두어 자동 음성 인식(ASR) 모델의 포괄적인 성능 평가를 제시한다. Whisper, MMS, Seamless-M4T 3가지 ASR 모델 군을 Word Error Rate(WER) 기준으로 분석하며, 가장 빈번한 잘못된 단어와 삽입, 삭제, 대체 오류 유형을 자세히 살펴본다.
말더듬 음성 모델링은 말 장애 진단, 언어 학습 지원, 치료 향상을 위한 핵심 모듈이지만 확장성, 대규모 말더듬 데이터 부족, 효과적인 학습 프레임워크 부재 등의 문제가 있다. 이 논문에서는 확장 가능한 말더듬 음성 모델링 시스템 SSDM을 제안한다.
장애인 음성 인식 기술 발전을 위해 신뢰할 수 있고 다양한 장애 유형을 포함하는 고품질 음성 데이터셋을 구축하는 방법과 그 과정에서 얻은 통찰력을 제공한다.
음성 검증을 위해 병렬 Transformer와 DFSMN을 결합한 Voice Transformer 모델을 제안하였으며, 이를 통해 지역적 및 전역적 특징을 효과적으로 추출할 수 있었다.
말더듬 음성 탐지와 인식을 위한 혁신적인 모델 및 데이터 증강 기법이 개발되었으며, 이를 통해 말더듬 환자의 삶의 질 향상을 위한 포용적인 음성 기술이 발전하고 있다.
화자 검증 시스템에서 음성 내용의 음성학적 특징을 고려하여 편향을 해소하는 PDAF 프레임워크를 제안한다.
Whisper 모델을 활용하여 실시간 음성 전사 기능을 제공하는 Whispy 시스템을 소개합니다.
이 챌린지의 주요 목표는 참가자들이 단일 경쟁 시스템을 개발하고, 철저한 분석을 수행하며, 텍스트 종속 화자 인증을 위한 혁신적인 개념들을 탐구하도록 동기를 부여하는 것입니다.