EMO-SUPERB는 음성 감정 인식 연구를 위한 종합적인 플랫폼이다. 이 플랫폼은 다음과 같은 주요 특징을 가지고 있다:
재현성 향상: 15개의 최신 음성 자기 지도 학습 모델(SSLM)을 활용하여 6개의 공개 음성 감정 데이터셋에 대한 포괄적인 평가를 수행한다. 모든 코드와 체크포인트를 공개하여 결과의 재현성을 높였다.
데이터 누출 해결: 대화 데이터셋의 화자 독립적인 데이터 분할 규칙을 정립하여 데이터 누출 문제를 해결했다.
미사용 감정 설명 활용: ChatGPT를 활용하여 자연어로 작성된 감정 설명을 이해하고 재라벨링하여 감정 인식 성능을 평균 3.08% 향상시켰다.
커뮤니티 기반 벤치마크: 온라인 리더보드를 통해 개발자들이 자신의 모델을 제출하고 비교할 수 있는 커뮤니티 기반 벤치마크를 제공한다.
이를 통해 EMO-SUPERB는 음성 감정 인식 분야의 발전을 촉진할 것으로 기대된다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Haibin Wu,Hu... lúc arxiv.org 03-12-2024
https://arxiv.org/pdf/2402.13018.pdfYêu cầu sâu hơn