Core Concepts
100以上の言語において、転記されたデータなしでマルチリンガル音声合成を実現する枠組みを提案します。
Abstract
この論文は、高品質なスタジオ録音の収集が困難であるため、テキストから音声への変換(TTS)システムの言語カバレッジが制限されていることに焦点を当てています。提案されたフレームワークは、監督なしで見つかったデータを使用して100以上の言語向けにマルチリンガルTTSモデルをスケーリングすることを目的としています。新しい言語においても転記された音声がなくても、このTTSモデルは理解可能な音声を生成できます。15分間の転記済みデータだけで、地面事実から1%未満の理解度差異を達成し、いくつかの言語で地面事実と一致する自然さスコアを得られます。
Stats
15分間の転記済みデータだけで、理解度差異が1%未満になりました。
地面事実と比較して自然さスコアが一致する数多くの言語があります。
Quotes
"Without any transcribed speech in a new language, this TTS model can generate intelligible speech in ¿30 unseen languages."
"With just 15 minutes of transcribed, found data, we can reduce the intelligibility difference to 1% or less from the ground-truth."