이 논문은 음성 번역 모델의 소스-타겟 정렬 성능을 평가하기 위한 SpeechAlign 프레임워크를 소개한다.
SpeechAlign은 두 가지 핵심 구성요소로 이루어져 있다. 첫째, 기존의 영어-독일어 텍스트 번역 정렬 데이터셋을 확장하여 Speech Gold Alignment 데이터셋을 구축했다. 이 데이터셋은 음성 데이터와 단어 수준의 정렬 정보를 제공한다.
둘째, 기존의 Alignment Error Rate(AER) 지표를 음성 도메인에 맞게 변형하여 Speech Alignment Error Rate(SAER)와 Time-weighted SAER(TW-SAER) 지표를 제안했다. SAER는 각 단어에 동일한 가중치를 부여하지만, TW-SAER는 단어의 길이를 고려한 가중치를 적용한다.
SpeechAlign 프레임워크는 이 데이터셋과 평가 지표를 활용하여 다양한 오픈소스 음성 번역 모델의 정렬 성능을 벤치마킹했다. 실험 결과, 모델 크기가 증가할수록 정렬 성능이 향상되는 것을 확인했다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Bele... alle arxiv.org 04-26-2024
https://arxiv.org/pdf/2309.11585.pdfDomande più approfondite