Główne pojęcia
사전 학습된 텍스트-음성 변환 모델의 중간 표현을 활용하여 오픈 어휘 키워드 탐지 성능을 향상시킬 수 있다.
Streszczenie
이 연구는 사전 학습된 텍스트-음성 변환(TTS) 모델의 중간 표현을 활용하여 오픈 어휘 키워드 탐지 성능을 향상시키는 새로운 방법을 제안한다.
제안된 프레임워크는 다음과 같은 4개의 하위 모듈로 구성된다:
- 텍스트 인코더: 사전 학습된 Tacotron 2 TTS 모델의 중간 표현을 활용하여 텍스트 임베딩을 생성한다.
- 오디오 인코더: 오디오 특징을 처리하여 오디오 임베딩을 생성한다.
- 패턴 추출기: 텍스트와 오디오 임베딩 간의 시간적 상관관계를 캡처한다.
- 패턴 판별기: 오디오와 텍스트가 동일한 키워드를 공유하는지 여부를 판단한다.
실험 결과, 제안된 방법은 기존 방법들에 비해 LibriPhrase Hard 데이터셋에서 AUC 8.22% 및 EER 12.56% 향상된 성능을 보였다. 또한 단어 길이와 OOV 시나리오에서도 강건한 성능을 보였다. 중간 표현 분석 결과, Tacotron 2 모델의 Bi-LSTM 블록 출력(E3)이 가장 우수한 성능을 보였다.
Statystyki
키워드 탐지 성능이 단어 길이에 따라 달라지는데, 단어 길이가 1 또는 2인 경우 EER 5.41%, 5.90%로 가장 좋은 성능을 보였다.
OOV 시나리오에서 제안 방법은 CMCD 대비 F1 score 7.25%, AUC 6.36%, EER 5.53% 향상된 성능을 보였다.
Cytaty
"사전 학습된 TTS 모델의 중간 표현을 활용하여 텍스트 임베딩을 생성함으로써 오디오-텍스트 간 유사성을 더 잘 포착할 수 있다."
"Tacotron 2 모델의 Bi-LSTM 블록 출력(E3)이 가장 우수한 성능을 보였는데, 이는 음향적 및 언어적 정보를 모두 효과적으로 캡처하기 때문이다."