구조화된 테스트 신호와 분석 방법을 활용하여 음성 자료 수집 및 제시를 위한 프로토콜과 도구를 개발하였다.
퍼지 C-평균(FCM) 및 커널 퍼지 C-평균(KFCM) 기술은 K-평균 기술에 비해 비선형적이고 비정상적인 잡음 환경에서 우수한 성능을 보인다.
제안된 방법은 감정 음성 데이터 없이도 즐거움, 각성, 지배력의 3가지 감정 차원을 제어하여 다양한 감정 스타일의 음성을 합성할 수 있다.
WeSep은 유연한 화자 모델링, 온라인 데이터 시뮬레이션, 대규모 데이터셋 처리 등의 기능을 제공하는 화자 추출 도구이다.
LLM을 활용한 음성 감정 인식에서 감정 특화 프롬프트와 ASR 오류 수정이 효과적이다.
전문가 혼합 모델을 활용하여 다양한 음성 딥페이크 데이터셋에 대한 탐지 성능을 향상시킬 수 있다.
SongTrans 모델은 노래 가사와 음표를 동시에 전사하고 정렬할 수 있는 통합 모델이다.
제안된 LBCCN 모델은 저주파 대역 필터링과 상대 음향 전달 함수 예측을 통해 계산 복잡도를 크게 낮추면서도 우수한 음성 향상 성능과 공간 단서 보존 능력을 보여줍니다.
이 연구는 음성 데이터를 활용하여 알츠하이머 및 파킨슨병을 탐지하는 해석 가능한 모델을 제안합니다. 이를 위해 건강한 화자의 음성 특성을 참조 모델로 정의하고, 이를 바탕으로 질병 환자의 음성 특성 편차를 측정하여 질병 탐지에 활용합니다.
TBDM-Net은 양방향 희소 컨볼루션 레이어와 성별 정보를 활용하여 음성 감정 인식 성능을 향상시킨다.