이 논문은 아일랜드어 저자원 음성 인식(ASR)과 방언 식별(DID)을 위한 혁신적인 접근법을 탐구합니다.
주요 내용은 다음과 같습니다:
하이브리드 CTC/Attention 인코더-디코더 모델을 사용하여 ASR과 DID를 다중 작업으로 학습합니다.
중간 CTC(InterCTC) 기법을 활용하여 인코더 층에 ASR과 DID 목표를 할당하고, 이를 통해 성능 향상을 도모합니다.
Conformer 및 E-branchformer 인코더 아키텍처를 비교하여 최적의 구조를 찾습니다.
방언 정보가 포함된 언어 모델을 활용한 shallow fusion 기법을 적용하여 ASR 성능을 추가로 개선합니다.
실험 결과, 제안된 다중 작업 접근법이 기존 모델 대비 DID 정확도를 10.8% 향상시켰으며, ASR 성능도 TDNN-HMM 모델에 근접한 수준을 달성했습니다. 이는 아일랜드어 저자원 ASR과 DID를 위한 유망한 전략으로 나타났습니다.
Іншою мовою
із вихідного контенту
arxiv.org
Глибші Запити