본 논문은 TdSV Challenge 2024의 이란어 부문 Task 1에 제출된 시스템에 대한 연구 논문입니다. TdSV는 특정 구문이 대상 화자가 말한 것인지 판별하는 것을 목표로 합니다. 본 연구에서는 구문 검증과 화자 검증을 위해 두 개의 독립적인 하위 시스템을 개발했습니다.
구문 검증 시스템은 사전 훈련된 교차 언어 음성 표현 모델인 XLSR을 기반으로 합니다. XLSR은 페르시아어와 영어의 이중 언어 음성 인식을 위해 미세 조정되었으며, 이후 구문 분류를 위해 추가 미세 조정 단계를 거쳤습니다. 이 분류기를 사용하여 잘못된 구문(TW)을 거부했습니다.
화자 검증 시스템에서는 사전 훈련된 ResNet과 Whisper를 기반으로 여러 화자 임베딩 추출기를 개발했습니다. 구문 분류기를 사용하여 잘못된 구문을 거부한 후, 테스트 임베딩과 등록 임베딩 간의 코사인 유사도를 계산하여 최종 검증 점수를 얻었습니다. 또한, 점수 정규화를 사용하여 성능을 더욱 향상시켰습니다.
실험 결과, 제안된 방법의 효과가 입증되었으며, 최고 성능 모델은 챌린지 리더보드에서 1위를 차지했습니다. 특히, Whisper-PMFA 방법이 널리 사용되는 ResNet 아키텍처보다 성능이 뛰어나다는 것을 발견했습니다. 그러나 두 배 더 많은 데이터(VoxCeleb 1&2)로 사전 훈련된 ResNet은 간단한 도메인 적응 단계를 거친 후 Whisper-PMFA를 능가할 수 있었는데, 이는 화자 검증 모델의 일반화 능력을 향상시키는 데 있어 대규모 사전 훈련의 중요성을 보여줍니다.
본 연구에서는 독립적인 사전 훈련된 구성 요소를 사용하여 경쟁력 있는 텍스트 종속 화자 검증 시스템을 개발할 수 있음을 보여주었습니다. 또한, 대규모 사전 훈련과 도메인 적응의 중요성을 강조했습니다. 향후 연구에서는 음성 및 텍스트의 공동 모델링을 통해 시스템 성능을 더욱 향상시킬 수 있을 것으로 예상됩니다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問