toplogo
Sign In

ÌròyìnSpeech: 다목적 요루바어 음성 코퍼스


Core Concepts
ÌròyìnSpeech는 고품질의 현대적인 요루바어 음성 데이터를 늘리기 위해 만들어진 새로운 데이터셋입니다. 이 데이터셋은 텍스트-음성 변환(TTS)과 자동 음성 인식(ASR) 작업에 모두 사용될 수 있습니다.
Abstract
ÌròyìnSpeech는 요루바어 음성 데이터를 늘리기 위해 만들어진 새로운 데이터셋입니다. 이 데이터셋은 다음과 같은 특징을 가지고 있습니다: 뉴스와 창작 글쓰기 도메인에서 23,000개의 문장을 수집했습니다. 이 문장들은 CC-BY-4.0 라이선스 하에 공개되어 있습니다. 참여형 데이터 생성 접근법을 장려하기 위해 5,000개의 문장을 Mozilla Common Voice 플랫폼에 제공하여 요루바어 음성 데이터를 크라우드소싱하고 있습니다. 총 42시간의 음성 데이터를 80명의 자원봉사자가 직접 녹음했습니다. 추가로 Mozilla Common Voice 플랫폼에서 6시간의 검증된 음성 데이터를 확보했습니다. TTS 평가 결과, 5시간 정도의 음성 데이터로도 고품질의 일반 도메인 단일 화자 요루바어 음성을 만들 수 있다는 것을 보여줍니다. ASR 실험에서는 23.8%의 단어 오류율(WER)을 달성했습니다.
Stats
총 42시간의 음성 데이터를 80명의 자원봉사자가 녹음했습니다. Mozilla Common Voice 플랫폼에서 6시간의 검증된 음성 데이터를 확보했습니다. TTS 모델 학습에는 10시간 11분의 음성 데이터를 사용했습니다. ASR 모델 학습에는 26시간의 음성 데이터를 사용했습니다.
Quotes
"ÌròyìnSpeech는 고품질의 현대적인 요루바어 음성 데이터를 늘리기 위해 만들어진 새로운 데이터셋입니다." "TTS 평가 결과, 5시간 정도의 음성 데이터로도 고품질의 일반 도메인 단일 화자 요루바어 음성을 만들 수 있다는 것을 보여줍니다." "ASR 실험에서는 23.8%의 단어 오류율(WER)을 달성했습니다."

Key Insights Distilled From

by Tolulope Ogu... at arxiv.org 03-28-2024

https://arxiv.org/pdf/2307.16071.pdf
ÌròyìnSpeech

Deeper Inquiries

요루바어 음성 데이터 수집을 위한 다른 접근법은 무엇이 있을까요?

요루바어 음성 데이터 수집을 위한 다른 접근법으로는 다양한 소스와 도메인에서 데이터를 수집하는 것이 있습니다. 이 연구에서는 뉴스와 창작 작품 도메인에서 텍스트 문장을 선별하여 음성 데이터를 수집했습니다. 다른 접근법으로는 일상 대화, 교육 콘텐츠, 문학 작품 등 다양한 도메인에서 텍스트를 추출하고 음성으로 변환하는 방법을 고려할 수 있습니다. 또한 다양한 연령대와 성별, 지역적 다양성을 고려하여 음성 데이터를 수집하는 것도 중요한 접근법 중 하나입니다.

TTS와 ASR 모델 성능을 더 향상시킬 수 있는 방법은 무엇일까요?

TTS와 ASR 모델의 성능을 향상시키기 위한 방법으로는 다양한 측면에서 접근할 수 있습니다. 데이터 다양성 확보: 다양한 도메인과 화자, 환경에서 데이터를 수집하여 모델의 일반화 성능을 향상시킬 수 있습니다. 모델 아키텍처 개선: 최신 모델 아키텍처를 사용하거나 다양한 모델을 앙상블하여 성능을 향상시킬 수 있습니다. 전이 학습 및 미세 조정: 사전 훈련된 모델을 활용하여 특정 작업에 맞게 모델을 미세 조정하면 성능을 향상시킬 수 있습니다. 언어 모델 적용: ASR에서는 언어 모델을 도입하여 단어 오류율을 줄일 수 있고, TTS에서는 자연스러운 발화를 위해 언어 모델을 활용할 수 있습니다.

요루바어 음성 기술 발전이 다른 아프리카 언어 기술 발전에 어떤 영향을 미칠 수 있을까요?

요루바어 음성 기술의 발전은 다른 아프리카 언어 기술 발전에 긍정적인 영향을 미칠 수 있습니다. 다문화적 음성 기술 발전: 요루바어를 포함한 다양한 아프리카 언어의 음성 기술 발전은 아프리카 다문화적 사회에 더 많은 음성 기술 적용 가능성을 제공할 수 있습니다. 언어 보존과 활성화: 아프리카 언어들이 음성 기술을 통해 디지털 환경에서 보존되고 활성화될 수 있으며, 지역 사회에 더 많은 언어적 자원을 제공할 수 있습니다. 교육 및 정보 접근성 향상: 음성 기술을 통해 아프리카 다양한 언어로 교육 및 정보에 더 쉽게 접근할 수 있게 되어 교육 및 정보 접근성이 향상될 수 있습니다.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star