Core Concepts
자기지도 학습 모델의 계층적 표현을 활용하여 다국어 음성 인식 성능을 향상시킬 수 있다.
Abstract
이 연구는 자기지도 학습 모델인 MMS(Massively Multilingual Speech)의 계층적 표현을 활용하여 다국어 음성 인식 성능을 향상시키는 방법을 제안한다.
먼저 MMS 모델의 계층별 표현을 분석하여 중간 층에서 언어 관련 정보가, 중간 및 상위 층에서 내용 관련 정보가 더 많이 포함되어 있음을 확인했다. 이를 바탕으로 다음과 같은 3가지 핵심 개선 사항을 제안했다:
중간 층에서 언어 관련 정보를 추출하여 이후 층에서 언어 정보 활용을 강화한다.
마지막 층에서 내용 관련 정보가 부족한 문제를 해결하기 위해 중간 층의 정보를 활용하거나 마지막 층을 제거한다.
마지막 층의 내용 관련 정보를 더 강화하기 위해 Cross-CTC 기법을 도입한다.
제안한 SSHR 방법을 Common Voice와 ML-SUPERB 데이터셋에 적용한 결과, 기존 방법 대비 각각 9.4%, 12.6%, 9.5%의 성능 향상을 달성하며 최신 기술 수준을 달성했다. 이를 통해 자기지도 학습 모델의 계층적 표현을 활용하면 다국어 음성 인식 성능을 크게 향상시킬 수 있음을 보여주었다.
Stats
다국어 음성 인식 모델은 7,000개 이상의 언어 중 대부분을 지원하지 못하고 있다.
자기지도 학습 모델인 MMS는 491,000시간의 음성 데이터와 1,406개 언어를 활용해 사전 학습되었다.
MMS 모델의 중간 층은 언어 관련 정보를, 중간 및 상위 층은 내용 관련 정보를 더 많이 포함하고 있다.
제안한 SSHR 방법은 Common Voice 데이터셋에서 기존 대비 9.4%, ML-SUPERB 데이터셋에서 12.6%, 9.5%의 성능 향상을 달성했다.
Quotes
"다국어 음성 인식 시스템 구축의 핵심은 다양한 언어에 대한 정확한 인식과 전사를 보장하는 것이다."
"자기지도 학습 모델의 마지막 층에는 내용 관련 정보가 부족한 문제가 있다."