Core Concepts
자기 지도 학습 기반 음성 표현을 활용하여 더 강력한 음성 단어 임베딩을 얻을 수 있다.
Abstract
이 연구는 자기 지도 학습 기반 음성 표현을 활용하여 음성 단어 임베딩(AWE)을 향상시키는 방법을 제안한다. 주요 내용은 다음과 같다:
대응 자동 인코더(CAE) 모델에 자기 지도 학습 기반 음성 표현(Wav2vec2, HuBERT, WavLM)을 입력으로 사용하여 더 강력한 AWE를 얻을 수 있음을 보였다.
영어로만 사전 학습된 자기 지도 학습 모델도 다른 언어에 대해 우수한 성능을 보였다. 이는 자기 지도 학습 모델이 언어에 독립적인 음성 특징을 학습할 수 있음을 시사한다.
단어 주변 문맥 정보를 활용하는 것이 AWE 성능 향상에 도움이 된다는 것을 정량적으로 입증했다.
실험 결과, HuBERT 기반 CAE 모델이 모든 언어에서 가장 우수한 단어 구분 성능을 보였다. 또한 HuBERT 기반 CAE 모델은 소스 언어(영어)에서 학습하고 타겟 언어에서 평가하는 '제로 샷' 설정에서도 우수한 성능을 보였다.
Stats
동일한 단어 쌍의 코사인 거리는 약 0.01, 0.11, 0.02로 매우 작다.
아나그램 단어 쌍의 코사인 거리는 약 0.99, 0.50, 0.69로 크다.
Quotes
"자기 지도 학습 기반 음성 표현을 활용하여 더 강력한 음성 단어 임베딩을 얻을 수 있다."
"영어로만 사전 학습된 자기 지도 학습 모델도 다른 언어에 대해 우수한 성능을 보였다."
"단어 주변 문맥 정보를 활용하는 것이 AWE 성능 향상에 도움이 된다."