核心概念
Sprachmodelle können hochwertige Sprachsynthese durch kontextbezogenes Lernen ermöglichen. Allerdings ist noch nicht systematisch verstanden, wie der Sprachstil der synthetisierten Sprache durch den Prompt und den Inhalt kontrolliert wird.
要約
In dieser Studie untersuchen wir empirisch autoregressive (AR) und nicht-autoregressive (NAR) Sprachmodelle für die sprachgesteuerte Sprachsynthese. Unsere Analyse zeigt, dass heterogene und nicht-stationäre Prompts die Qualität der Sprachsynthese beeinträchtigen, im Gegensatz zu früheren Erkenntnissen, dass längere Prompts immer zu besserer Synthese führen. Darüber hinaus finden wir, dass der Sprachstil der synthetisierten Sprache auch durch den Inhalt beeinflusst wird, zusätzlich zum Prompt. Wir zeigen weiter, dass semantische Einheiten reiche akustische Informationen wie Tonhöhe, Tempo, Lautstärke und Betonung enthalten, die in die synthetisierte Sprache übertragen werden können.
統計
Die Sprachrate (Tempo) der synthetisierten Sprache wird hauptsächlich durch den Inhalt bestimmt, nicht durch den Prompt.
Die Lautstärke der synthetisierten Sprache wird hauptsächlich durch den Prompt bestimmt, während das NAR-Modell auch die Lautstärke des Inhalts überträgt.
Die Betonung in der synthetisierten Sprache wird hauptsächlich durch den Inhalt bestimmt und in hohem Maße übertragen.
引用
"Heterogene und nicht-stationäre Prompts können die Qualität der Sprachsynthese beeinträchtigen, im Gegensatz zu früheren Erkenntnissen, dass längere Prompts immer zu besserer Synthese führen."
"Der Sprachstil der synthetisierten Sprache wird nicht nur durch den Prompt, sondern auch durch den Inhalt beeinflusst."
"Semantische Einheiten enthalten reiche akustische Informationen wie Tonhöhe, Tempo, Lautstärke und Betonung, die in die synthetisierte Sprache übertragen werden können."