Die Studie untersucht einen neuartigen Ansatz zur Erzeugung geschlechtsambiger Sprachsynthese, indem der feminine Sprechstil einer weiblichen Stimme auf männliche Stimmen übertragen wird. Dazu werden Stimmmorph-Verfahren eingesetzt, um die Charakteristika der weiblichen Sprechweise (z.B. Intonation, Sprechrhythmus) auf die männlichen Stimmen zu übertragen, während gleichzeitig die Tonhöhe in den Bereich zwischen männlich und weiblich verschoben wird.
Die Ergebnisse zeigen, dass diese Kombination aus Stimmübertragung und Tonhöhenmodifikation zu einer höheren wahrgenommenen Geschlechtsambiguität der resultierenden Stimmen führt als reine Tonhöhenverschiebungen. Die erzeugten Sprachproben wurden von Hörern als qualitativ hochwertig eingestuft.
Im Gegensatz zu bisherigen Ansätzen, die entweder reine Signalmodifikationen oder das Mitteln von Sprecherembeddings verwendeten, nutzt dieser Ansatz gezielt die Übertragung suprasegmentaler Merkmale des Sprechstils, um Geschlechtsambiguität zu erzeugen. Damit wird erstmals der Sprechstil als zentraler Faktor für die Erzeugung geschlechtsambiger Stimmen berücksichtigt.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Maria Koutso... at arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07661.pdfDeeper Inquiries