이 연구는 두경부암 환자의 음성 품질 평가를 위한 새로운 접근 방식을 제안합니다. 데이터 부족 문제를 해결하기 위해 사전 학습된 Wav2Vec2 모델을 활용하였습니다. 특히 자기 지도 학습(SSL) 기반 Wav2Vec2와 자동 음성 인식(ASR) 기반 Wav2Vec2를 비교하였습니다.
실험 결과, ASR 기반 Wav2Vec2 모델이 SSL 기반 모델보다 우수한 성능을 보였습니다. 이는 ASR 작업이 음성 품질 평가와 밀접한 관련이 있음을 시사합니다. 제안된 ASR 기반 접근 방식은 기존 접근 방식보다 58%에서 75%의 MSE 감소를 달성하며 새로운 성능 기준을 제시했습니다.
추가 분석을 통해 음성 내용의 길이와 다양성이 모델 성능에 미치는 영향을 확인했습니다. 심각한 음성 장애를 가진 환자의 경우 음성 내용이 길수록 모델 성능이 향상되었습니다. 반면 건강한 대조군은 음성 내용에 크게 영향을 받지 않았습니다. 또한 서로 다른 텍스트 읽기 과제에서도 모델은 일관된 성능을 보였습니다.
이 연구 결과는 ASR 기반 특징 추출기가 두경부암 환자의 음성 품질 평가에 효과적으로 활용될 수 있음을 보여줍니다. 향후 연구에서는 음성 내용과 모델 성능의 관계를 더 깊이 있게 탐구할 계획입니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Tuan Nguyen,... alle arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20184.pdfDomande più approfondite