Core Concepts
최근 기계 학습 기술의 발전으로 다모달 사전 학습이 단일 모달 모델에 비해 음성 인식 성능을 향상시킬 수 있음이 입증되었다. 기존 다모달 사전 학습 방법은 단일 비지도 학습 작업을 사용하는 단일 단계 사전 학습에 초점을 맞추었다. 본 연구에서는 다모달 및 다태스크 비지도 사전 학습과 번역 기반 지도 중간 학습 접근법을 결합한 새로운 방법을 소개한다. 이러한 다단계 접근법이 Librispeech와 SUPERB 벤치마크에서 최대 38.45%의 상대적 단어 오류율 개선을 가져올 수 있음을 실험적으로 입증한다.
Abstract
본 연구는 음성 인식을 위한 다단계 다모달 사전 학습 방법을 제안한다.
사전 학습 단계:
마스크 자동 인코더(MAE) 및 대조 학습(CLR) 기반 다모달 사전 학습 수행
Kinetics, VoxCeleb2, LRS3 등 다양한 데이터셋 활용
MAE는 지역적 특징 학습, CLR은 전역적 특징 학습에 초점
중간 학습 단계:
사전 학습된 모델의 성능을 향상시키기 위해 번역 작업을 중간 학습 태스크로 도입
영어 음성을 다른 언어(독일어, 이탈리아어, 네덜란드어)로 번역하는 작업을 통해 모델의 언어 표현 능력 향상
fine-tuning 단계:
사전 학습 및 중간 학습된 모델을 Librispeech 데이터셋과 SUPERB 벤치마크의 다양한 태스크(음성 인식, 키워드 탐지, 의도 분류 등)에 fine-tuning
실험 결과, 제안한 다단계 다모달 학습 방법이 기존 방법 대비 최대 38.45%의 상대적 단어 오류율 개선을 달성했다. 또한 데이터셋 특성과 사전 학습 방법에 따른 성능 차이를 분석하였다.
Stats
제안 모델은 Librispeech 테스트 클린 데이터셋에서 최대 38.45% 상대적 단어 오류율 개선을 달성했다.
제안 모델은 Librispeech 테스트 기타 데이터셋에서 최대 26.18% 상대적 단어 오류율 개선을 달성했다.
제안 모델은 SUPERB 벤치마크의 키워드 탐지, 의도 분류, 음소 인식, 화자 구분 태스크에서 성능 향상을 보였다.
Quotes
"최근 기계 학습 기술의 발전으로 다모달 사전 학습이 단일 모달 모델에 비해 음성 인식 성능을 향상시킬 수 있음이 입증되었다."
"본 연구에서는 다모달 및 다태스크 비지도 사전 학습과 번역 기반 지도 중간 학습 접근법을 결합한 새로운 방법을 소개한다."
"이러한 다단계 접근법이 Librispeech와 SUPERB 벤치마크에서 최대 38.45%의 상대적 단어 오류율 개선을 가져올 수 있음을 실험적으로 입증한다."