이 연구는 사전 학습된 텍스트-음성 변환(TTS) 모델의 중간 표현을 활용하여 오픈 어휘 키워드 탐지 성능을 향상시키는 새로운 방법을 제안한다.
제안된 프레임워크는 다음과 같은 4개의 하위 모듈로 구성된다:
실험 결과, 제안된 방법은 기존 방법들에 비해 LibriPhrase Hard 데이터셋에서 AUC 8.22% 및 EER 12.56% 향상된 성능을 보였다. 또한 단어 길이와 OOV 시나리오에서도 강건한 성능을 보였다. 중간 표현 분석 결과, Tacotron 2 모델의 Bi-LSTM 블록 출력(E3)이 가장 우수한 성능을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Kesavaraj V,... at arxiv.org 04-08-2024
https://arxiv.org/pdf/2404.03914.pdfDeeper Inquiries