Core Concepts
Durch die Modellierung von sowohl syntaktischen als auch akustischen Merkmalen kann die Pausenbildung in der koreanischen Sprachsynthese deutlich verbessert werden, was zu einer natürlicheren Sprachausgabe führt.
Abstract
Die Studie untersucht die Bedeutung von syntaktischen und akustischen Informationen für die Pausenbildung in der koreanischen Sprachsynthese. Dafür wird ein neuartiges Modell namens TaKOtron2-Pro entwickelt, das beide Arten von Informationen integriert.
Die Autoren zeigen, dass die Berücksichtigung sowohl syntaktischer als auch akustischer Merkmale zu einer deutlichen Verbesserung der Pausenbildung und damit der Sprachqualität führt. Im Vergleich zu Baseline-Modellen erzielt TaKOtron2-Pro signifikant bessere Ergebnisse, insbesondere bei längeren und komplexeren Sätzen, die nicht im Trainingsdatensatz enthalten waren.
Die Analyse der Pausenmuster zeigt, dass die syntaktischen Modelle tendenziell kürzere, aber häufigere Pausen erzeugen, während die akustischen Modelle längere, aber seltenere Pausen produzieren. Das integrierte Modell TaKOtron2-Pro vereint diese unterschiedlichen Pausenmuster und erzielt so die besten Ergebnisse.
Insgesamt demonstriert die Studie, dass die Kombination von syntaktischen und akustischen Informationen entscheidend ist, um eine natürliche Pausenbildung in der koreanischen Sprachsynthese zu erreichen, auch bei Sätzen, die über die Trainingsdaten hinausgehen.
Stats
Die Autoren berichten folgende Kennzahlen:
MOS-S (Mean Opinion Score für kurze Sätze): 3,467 ± 0,08
MOS-L (Mean Opinion Score für lange Sätze): 3,767 ± 0,07
WER-S (Word Error Rate für kurze Sätze): 0,12429
WER-L (Word Error Rate für lange Sätze): 0,14689
Quotes
"Durch die Modellierung von sowohl syntaktischen als auch akustischen Merkmalen kann die Pausenbildung in der koreanischen Sprachsynthese deutlich verbessert werden, was zu einer natürlicheren Sprachausgabe führt."
"Das integrierte Modell TaKOtron2-Pro vereint die unterschiedlichen Pausenmuster der syntaktischen und akustischen Modelle und erzielt so die besten Ergebnisse."