Core Concepts
음성 프레임 간 시간 관계를 증류하여 경량 음성 자기 지도 학습 모델의 성능을 향상시킬 수 있다.
Abstract
이 연구에서는 음성 자기 지도 학습(SSL) 모델의 압축을 위해 음성 프레임 간 시간 관계(STaR)를 증류하는 방법을 제안한다. 기존 연구들은 모델 크기가 큰 교사 모델의 복잡한 출력 표현을 직접 모방하는 데 초점을 맞추었지만, 이는 용량이 제한적인 학생 모델에게 과도한 제약이 될 수 있다.
제안하는 STaR 증류 방법은 교사 모델의 주의 집중 맵, 층 단위 시간 그램 행렬, 층 내 시간 그램 행렬을 학생 모델에 전달하여 프레임 간 시간 관계를 효과적으로 학습할 수 있게 한다. 추가 파라미터 없이 증류를 수행할 수 있어 더 경량화된 모델을 구축할 수 있다.
실험 결과, STaR 증류를 적용한 학생 모델은 27백만 개 미만의 파라미터로 SUPERB 벤치마크에서 최고 성능을 달성했다. 또한 기존 압축 기법 대비 연산량이 크게 감소했다. 이를 통해 제안 방법이 다양한 음성 SSL 모델에 적용 가능하며, 경량 모델에 효과적임을 확인했다.
Stats
교사 모델 HuBERT BASE는 82 GPU-days의 사전 학습 시간이 소요된다.
교사 모델 HuBERT BASE는 94.7백만 개의 파라미터를 가진다.
제안 모델 STaRHuBERT-L은 26.63백만 개의 파라미터를 가지며, 교사 모델 대비 28.1%의 파라미터만 사용한다.
제안 모델 STaRHuBERT-L은 교사 모델 대비 30.7%의 연산량만 사용한다.
Quotes
"Transformer 기반 음성 자기 지도 학습 모델은 뛰어난 성능을 보이지만, 큰 파라미터 크기와 연산량으로 인해 실제 활용이 어렵다."
"본 연구에서는 음성 프레임 간 시간 관계(STaR)를 증류하여 경량 음성 자기 지도 학습 모델의 성능을 향상시키는 방법을 제안한다."