이 논문은 음성 번역 모델의 소스-타겟 정렬 성능을 평가하기 위한 SpeechAlign 프레임워크를 소개한다.
SpeechAlign은 두 가지 핵심 구성요소로 이루어져 있다. 첫째, 기존의 영어-독일어 텍스트 번역 정렬 데이터셋을 확장하여 Speech Gold Alignment 데이터셋을 구축했다. 이 데이터셋은 음성 데이터와 단어 수준의 정렬 정보를 제공한다.
둘째, 기존의 Alignment Error Rate(AER) 지표를 음성 도메인에 맞게 변형하여 Speech Alignment Error Rate(SAER)와 Time-weighted SAER(TW-SAER) 지표를 제안했다. SAER는 각 단어에 동일한 가중치를 부여하지만, TW-SAER는 단어의 길이를 고려한 가중치를 적용한다.
SpeechAlign 프레임워크는 이 데이터셋과 평가 지표를 활용하여 다양한 오픈소스 음성 번역 모델의 정렬 성능을 벤치마킹했다. 실험 결과, 모델 크기가 증가할수록 정렬 성능이 향상되는 것을 확인했다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések