Основні поняття
하이브리드 자기회귀 트랜스듀서(HAT) 기반 음성 인식 모델의 성능을 향상시키기 위해 내부 음향 모델(IAM) 학습 전략과 이중 공백 임계값 설정 기법을 제안한다.
Анотація
이 논문에서는 HAT 기반 음성 인식 모델의 성능을 향상시키기 위한 두 가지 접근법을 제안한다.
- 내부 음향 모델(IAM) 학습 전략:
- IAM은 인코더와 결합 네트워크로 구성되며, HAT와 완전히 공유되어 함께 학습된다.
- 이를 통해 HAT 학습 효율이 향상되고, IAM과 HAT가 공백을 동기화하여 더 비용 효율적인 공백 임계값 설정이 가능해진다.
- 실험 결과, IAM을 적용한 HAT가 기존 HAT 대비 통계적으로 유의미한 성능 향상을 보였다.
- 이중 공백 임계값 설정:
- HAT와 IAM의 공백 임계값 설정을 결합한 이중 공백 임계값 설정 기법을 제안한다.
- 이를 통해 비용 효율적인 프레임 스킵이 가능하여 디코딩 속도를 42-75% 향상시킬 수 있었다.
- 호환 가능한 디코딩 알고리즘을 활용하여 공백 임계값 설정으로 인한 성능 저하를 완화하였다.
실험 결과, 제안 기법을 적용한 HAT 모델이 기존 HAT 대비 우수한 성능과 디코딩 속도를 달성하였다.
Статистика
공백 임계값 설정을 통해 디코딩 속도를 42-75% 향상시킬 수 있었다.
제안 기법을 적용한 HAT 모델의 실시간 요인(RTF)은 기존 HAT 대비 0.072-0.088로 크게 개선되었다.
Цитати
"IAM 내에 HAT를 구현하면 HAT와 공백 방출 시점을 더 효과적으로 동기화할 수 있어 FCTC보다 CTC-blank 임계값 설정에 의한 성능 저하가 적다."
"제안한 이중 공백 임계값 설정과 호환 가능한 디코딩 알고리즘을 통해 성능 저하 없이 디코딩 속도를 크게 향상시킬 수 있었다."