Die Studie untersucht die Bedeutung von syntaktischen und akustischen Informationen für die Pausenbildung in der koreanischen Sprachsynthese. Dafür wird ein neuartiges Modell namens TaKOtron2-Pro entwickelt, das beide Arten von Informationen integriert.
Die Autoren zeigen, dass die Berücksichtigung sowohl syntaktischer als auch akustischer Merkmale zu einer deutlichen Verbesserung der Pausenbildung und damit der Sprachqualität führt. Im Vergleich zu Baseline-Modellen erzielt TaKOtron2-Pro signifikant bessere Ergebnisse, insbesondere bei längeren und komplexeren Sätzen, die nicht im Trainingsdatensatz enthalten waren.
Die Analyse der Pausenmuster zeigt, dass die syntaktischen Modelle tendenziell kürzere, aber häufigere Pausen erzeugen, während die akustischen Modelle längere, aber seltenere Pausen produzieren. Das integrierte Modell TaKOtron2-Pro vereint diese unterschiedlichen Pausenmuster und erzielt so die besten Ergebnisse.
Insgesamt demonstriert die Studie, dass die Kombination von syntaktischen und akustischen Informationen entscheidend ist, um eine natürliche Pausenbildung in der koreanischen Sprachsynthese zu erreichen, auch bei Sätzen, die über die Trainingsdaten hinausgehen.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések