핵심 개념
본 논문에서는 음성-음성 모델의 강세 보존 능력을 평가하기 위한 자동화된 벤치마크인 EmphAssess를 소개하고, 특히 영어-영어 및 영어-스페인어 모델에 대한 결과를 제시합니다.
초록
EmphAssess: 음성-음성 모델에서 강세 전이 평가를 위한 음향적 벤치마크 소개
본 논문에서는 음성-음성 모델, 특히 음성 합성 및 음성 번역 모델에서 강세 보존 능력을 평가하기 위한 새로운 자동 벤치마크인 EmphAssess를 소개합니다.
EmphAssess의 주요 구성 요소
- EmphAssess 데이터셋: 강세 단어가 포함된 합성된 영어 발화 데이터셋으로, 각 발화에는 전사, 강세 단어의 위치 인덱스, 합성에 사용된 음성에 대한 정보가 메타데이터로 포함되어 있습니다.
- 자동 평가 파이프라인: 입력 발화와 모델의 출력 발화 간의 강세 정렬을 평가하는 시스템으로, 다양한 유형의 출력(의역 및 번역 포함)을 처리할 수 있습니다.
- EmphaClass: 프레임 또는 단어 수준에서 강세를 분류하기 위해 기존 다국어 SSL 모델을 영어 데이터로 미세 조정하여 학습한 새로운 강세 분류기입니다.
EmphAssess 벤치마크의 장점
- 다양한 출력 유형 처리: 의역 및 번역을 포함한 다양한 출력 유형을 처리할 수 있습니다.
- 모듈식 구조: 각 모듈은 독립적으로 기능하도록 설계되어 수정이 용이합니다.
- 다국어 지원: 영어-영어 및 영어-스페인어 모델에 중점을 두고 있지만 다른 언어 쌍으로 확장할 수 있는 기반을 마련했습니다.
- 다양한 모델에 적용 가능: 비지도 학습 음성 언어 모델에 중점을 두고 있지만 모든 음성-음성 프레임워크에 적용할 수 있습니다.
벤치마크 결과
- 영어-영어 모델: pGSLM 모델은 강세를 정확하게 인코딩하는 데 탁월한 성능을 보여주었으며, GSLM 모델도 어느 정도 강세를 전달하는 데 성공했습니다. 반면 Seamless M4T 모델은 강세를 효과적으로 포착하지 못했습니다.
- 영어-스페인어 모델: Seamless M4T 모델은 영어-영어 모델과 마찬가지로 강세를 효과적으로 포착하지 못했습니다.
결론
EmphAssess 벤치마크는 음성-음성 모델에서 음향적 특징, 특히 강세를 평가하는 새로운 기준을 제시합니다. 이는 보다 자연스럽고 효과적인 기계 생성 음성을 위한 길을 열어줄 수 있는 방법론적 기여와 실행 가능한 통찰력을 모두 제공합니다.
통계
EmphAssess 데이터셋은 913개의 고유한 전사에서 파생된 3,652개의 음성 샘플로 구성됩니다.
각 전사는 4개의 고유한 음성으로 렌더링됩니다.
영어-영어 모델 평가에서 최상의 결과를 얻은 모델은 F1 점수 89%를 기록했습니다.
GSLM 모델은 F1 점수 42%를 기록했습니다.
pGSLM 모델은 F1 점수 88%를 기록했습니다.
Seamless M4T 모델은 영어-영어 및 영어-스페인어 작업 모두에서 F1 점수 18%를 기록했습니다.
영어-스페인어 모델 평가에서 최상의 결과를 얻은 모델은 F1 점수 58%를 기록했습니다.
인간 평가에서 영어 데이터셋에 대한 정밀도 점수는 86%, 재현율 점수는 50%였습니다.
인간 평가에서 스페인어 데이터셋에 대한 정밀도 및 재현율 점수는 영어 데이터셋보다 낮았습니다.
인용구
"In this work, we introduce the EmphAssess benchmark, which is focused on local prosody for speech-to-speech models."
"The EmphAssess evaluation pipeline’s modular structure is a key feature, with each module designed to function independently and allow for straightforward modifications."
"We leverage a suite of distinct open-source models, each finetuned for particular tasks."
"Finally, we introduce and open-source, as part of this automatic evaluation pipeline, a novel emphasis classifier at the word level: EmphaClass."