核心概念
자기지도 학습 기법인 Data2Vec을 활용하여 키워드 탐지 모델의 소음 강건성을 향상시킬 수 있다.
要約
이 논문은 키워드 탐지(KWS) 모델의 소음 강건성 향상을 위해 자기지도 학습 기법인 Data2Vec을 활용하는 방법을 제안한다.
먼저, 저자들은 Data2Vec 사전학습 방식을 세 가지로 변형하여 실험했다:
- Data2Vec-clean: 깨끗한 데이터로 사전학습
- Data2Vec-noisy: 노이즈가 포함된 데이터로 사전학습
- Data2Vec-denoising: 교사 모델에는 깨끗한 데이터, 학생 모델에는 노이즈가 포함된 데이터를 입력하여 디노이징 학습
이후 사전학습된 모델들을 소량의 레이블 데이터로 fine-tuning하고, 다양한 SNR 수준의 노이즈 환경에서 성능을 평가했다.
실험 결과, 사전학습 및 fine-tuning 방식이 깨끗한 데이터로만 학습한 baseline 모델보다 전반적으로 우수한 성능을 보였다. 특히 Data2Vec-denoising 방식이 가장 강건한 모델을 생성했다. 이는 노이즈가 포함된 데이터로 사전학습하면서 동시에 디노이징을 학습하는 것이 효과적임을 보여준다.
또한 Data2Vec-clean 모델은 SNR 5dB 이상의 조건에서 다중 스타일 학습(MTR) baseline 모델보다 우수한 성능을 보였는데, 이는 사전학습만으로도 모델의 소음 강건성을 높일 수 있음을 시사한다.
統計
깨끗한 데이터로 학습한 모델은 SNR 10dB 이상에서 다중 스타일 학습 baseline 모델보다 우수한 성능을 보였다.
Data2Vec 사전학습 모델들은 모든 SNR 조건에서 baseline 모델들보다 높은 정확도를 달성했다.
Data2Vec-denoising 모델이 가장 강건한 성능을 보였다.
引用
"Pretraining and fine-tuning on clean data is superior to supervised learning on clean data across all testing conditions, and superior to supervised MTR for testing conditions of SNR above 5 dB."
"Using noisy data for the student and clean data for the teacher in Data2Vec pretraining (i.e., Data2Vec-denoising), yields the best performing models in noisy conditions, while only performing marginally worse in clean conditions compared to models pretrained on clean data."