Emiliaは、101,000時間を超える大規模で多言語かつ多様なスピーチデータセットであり、Emilia-Pipeは、生の音声データを高品質な学習データに効率的に変換するオープンソースの前処理パイプラインである。