מושגי ליבה
LeBenchmark 2.0은 프랑스어 음성 기술을 평가하고 구축하기 위한 오픈소스 프레임워크로, 14,000시간의 다양한 프랑스어 음성 데이터, 26백만에서 10억 개의 학습 가능한 매개변수를 가진 10개의 사전 학습된 wav2vec 2.0 SSL 모델, 6개의 다운스트림 작업으로 구성되어 있다.
תקציר
LeBenchmark 2.0은 프랑스어 음성 처리 기술을 평가하고 구축하기 위한 표준화되고 복제 가능한 프레임워크이다. 이 프레임워크는 다음과 같은 구성요소를 포함한다:
14,000시간의 다양한 프랑스어 음성 데이터: 이 데이터는 읽기 음성, 방송 음성, 자발적 음성, 연기 전화 대화, 연기 감정 음성 등 다양한 유형의 음성을 포함한다. 이 데이터는 성별 정보도 포함하고 있다.
10개의 사전 학습된 wav2vec 2.0 SSL 모델: 이 모델들은 26백만에서 10억 개의 학습 가능한 매개변수를 가지고 있으며, 프랑스어 음성 처리 커뮤니티에 공유되고 있다.
6개의 다운스트림 작업: 자동 음성 인식(ASR), 음성 언어 이해(SLU), 자동 음성 번역(AST), 자동 감정 인식(AER), 구문 분석(SA), 자동 화자 검증(ASV)을 포함한다. 이 작업들은 음성 전사, 의미, 번역, 준언어적 정보 등 다양한 측면을 평가한다.
LeBenchmark 2.0은 프랑스어 음성 처리 기술 개발을 위한 표준화된 프레임워크를 제공하며, 언어 특화 SSL 모델과 다국어 SSL 모델의 성능을 비교하고, 대규모 SSL 모델의 에너지 소비에 대한 논의를 포함한다.
סטטיסטיקה
14,000시간의 다양한 프랑스어 음성 데이터를 포함한다.
10개의 사전 학습된 wav2vec 2.0 SSL 모델을 제공한다.
6개의 다운스트림 작업을 통해 음성 처리 기술을 평가한다.