음성 인식을 위한 다단계 다모달 사전 학습
최근 기계 학습 기술의 발전으로 다모달 사전 학습이 단일 모달 모델에 비해 음성 인식 성능을 향상시킬 수 있음이 입증되었다. 기존 다모달 사전 학습 방법은 단일 비지도 학습 작업을 사용하는 단일 단계 사전 학습에 초점을 맞추었다. 본 연구에서는 다모달 및 다태스크 비지도 사전 학습과 번역 기반 지도 중간 학습 접근법을 결합한 새로운 방법을 소개한다. 이러한 다단계 접근법이 Librispeech와 SUPERB 벤치마크에서 최대 38.45%의 상대적 단어 오류율 개선을 가져올 수 있음을 실험적으로 입증한다.