핵심 개념
자기지도 학습 기반 음성 표현을 활용하여 효과적인 음성 단어 임베딩을 학습할 수 있다.
초록
이 연구는 자기지도 학습 기반 음성 표현을 활용하여 음성 단어 임베딩(Acoustic Word Embeddings, AWEs)을 학습하는 방법을 제안한다. 주요 내용은 다음과 같다:
자기지도 학습 기반 음성 표현(Wav2vec2, HuBERT, WavLM)을 입력으로 하는 대응 자동 인코더(Correspondence Auto-Encoder, CAE) 모델을 통해 향상된 AWEs를 학습할 수 있음을 보였다.
영어로 사전 학습된 자기지도 학습 모델이 다른 언어에서도 효과적으로 AWEs를 추출할 수 있음을 확인했다. 이는 저자원 언어에 대한 AWEs 학습에 유용할 것으로 기대된다.
음성 단어의 문맥 정보를 활용하는 것이 더 강건한 AWEs를 생성하는 데 도움이 된다는 것을 정량적으로 보였다.
실험 결과, HuBERT 기반 CAE 모델이 모든 언어에서 가장 우수한 단어 구분 성능을 보였다. 또한 영어로 사전 학습된 HuBERT 기반 CAE 모델이 다른 언어에 대해서도 우수한 성능을 보였다. 이는 자기지도 학습 기반 음성 표현이 음성 단어 임베딩 학습에 효과적으로 활용될 수 있음을 시사한다.
통계
동일한 단어의 다른 발화 간 코사인 거리는 약 0.01, 0.11, 0.02로 매우 작다.
단어 아나그램 쌍의 코사인 거리는 약 0.99, 0.50, 0.69로 크다.
인용구
"HuBERT-based CAE-RNN 모델은 단어의 철자 순서를 효과적으로 포착한다."
"HuBERT-based CAE-RNN 모델은 mean pooling 방법과 비교하여 동일 단어 쌍과 아나그램 단어 쌍에 대해 훨씬 나은 성능을 보인다."