本論文では、大規模で多言語かつ多様なスピーチデータセット「Emilia」と、その前処理パイプラン「Emilia-Pipe」を紹介している。
Emilia-Pipeは、生の音声データを高品質な学習データに変換するための6つのステップ(標準化、ソース分離、スピーカー分離、VADによる細かい分割、ASR、フィルタリング)から成る。この前処理パイプラインにより、生の音声データから効率的に高品質な学習データを生成することができる。
Emiliaデータセットは、Emilia-Pipeを使って構築された大規模で多言語かつ多様なスピーチデータセットである。全体で101,654時間の音声データを含み、英語、中国語、ドイツ語、フランス語、日本語、韓国語の6言語をカバーしている。データの質と多様性の分析から、Emiliaは既存のデータセットと比較して高品質かつ多様性に富んでいることが示された。
Emiliaデータセットを使ってテキスト音声変換モデルを学習した実験では、既存のオーディオブック由来のデータセットと比べて、より自然で人間らしい音声を生成できることが確認された。また、Emiliaの全言語を使って学習したモデルは、優れた多言語音声生成性能を示した。
Emilia-PipeとEmiliaデータセットはオープンソースで公開されており、音声生成分野の研究コミュニティの発展に貢献することが期待される。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询