이 논문은 SLT 2024 저자원 마비말 깨우기 단어 탐지(LRDWWS) 챌린지를 위해 개발된 PB-LRDWWS 시스템을 소개한다. 이 시스템은 마비말 음성 콘텐츠 특징 추출기와 프로토타입 기반 분류 방법을 결합하여 구현되었다.
특징 추출기는 3단계 fine-tuning 과정을 통해 얻은 fine-tuned HuBERT 모델이다. 이 모델은 대상 마비말 화자의 등록 음성에서 특징을 추출하여 프로토타입을 구축한다. 분류는 대상 마비말 화자의 평가 음성에서 추출한 HuBERT 특징과 프로토타입 간의 코사인 유사도를 계산하여 수행된다.
저자들은 데이터 증강 기법, 손실 함수 설정, 분류 방법 등 다양한 실험을 통해 PB-LRDWWS 시스템의 성능을 향상시켰다. 그 결과 LRDWWS 챌린지 Test-B에서 2위를 차지했다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Shiyao Wang,... a las arxiv.org 09-10-2024
https://arxiv.org/pdf/2409.04799.pdfConsultas más profundas