이 논문은 자동 음성 인식(ASR) 시스템의 정확성과 강건성을 높이기 위해 생물학적 청각 지각에 기반한 음향 특징을 활용하는 방법을 제안한다.
먼저, 기존 연구에서 제안된 감마톤 필터뱅크 특징(GammSpec)과 함께, 주파수 마스킹(FreqMask)과 감마톤 차이 스펙트로그램(DoGSpec)이라는 두 가지 새로운 특징을 소개한다. FreqMask는 동시 주파수 마스킹 현상을 모방하고, DoGSpec은 측면 억제 현상을 모방한다.
이러한 생물학적 특징들을 최신 트랜스포머 기반 ASR 모델(Conformer, Branchformer)에 적용하여 다양한 데이터셋(LibriSpeech, TEDLIUM, MLS-es)에서 평가한다. 실험 결과, DoGSpec은 LogMelSpec 대비 유사한 정확도를 보이면서도 훨씬 더 강건한 성능을 보였다. 또한 GammSpec은 LogMelSpec보다 정확도와 비대립적 노이즈에 대한 강건성이 우수했다.
이 연구는 단순히 가장 널리 사용되는 특징(LogMelSpec)을 사용하는 것이 최적의 선택이 아닐 수 있음을 보여준다. 생물학적 메커니즘을 도입하면 ASR 모델의 강건성을 크게 향상시킬 수 있다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問