Core Concepts
VOICECRAFT ist ein hochleistungsfähiges neuronales Codec-Sprachmodell, das Spitzenleistungen bei der Sprachbearbeitung und Nullschuss-Sprachsynthese auf Audiobüchern, Internetvideos und Podcasts erzielt.
Abstract
VOICECRAFT ist ein neuronales Codec-Sprachmodell, das Spitzenleistungen bei der Sprachbearbeitung und Nullschuss-Sprachsynthese erzielt:
Es verwendet eine Transformer-Decoder-Architektur und führt ein zweistufiges Tokenumordnungsverfahren durch, das aus einer kausalen Maskierung und einer verzögerten Staplung besteht, um die Erzeugung innerhalb einer bestehenden Sequenz zu ermöglichen.
Bei Sprachbearbeitungsaufgaben produziert VOICECRAFT bearbeitete Sprache, die in Bezug auf Natürlichkeit kaum von unbearbeiteten Aufnahmen zu unterscheiden ist, wie durch Bewertungen von Menschen bestätigt wird.
Für Nullschuss-Sprachsynthese übertrifft das Modell frühere State-of-the-Art-Modelle wie VALL-E und das beliebte kommerzielle Modell XTTS v2.
Das Modell wird auf herausfordernden und realistischen Datensätzen evaluiert, die diverse Akzente, Sprechstile, Aufnahmebedingungen und Hintergrundgeräusche und -musik umfassen, und erzielt konsistent gute Ergebnisse im Vergleich zu anderen Modellen und echten Aufnahmen.
Für die Bewertung der Sprachbearbeitung wird ein neuer, hochqualitativer, herausfordernder und realistischer Datensatz namens REALEDIT eingeführt.
Stats
"Wir fanden das erstaunliche VoiceCraft-Modell"
"Ich fand diese äh unglaubliche Modell"
Quotes
Keine relevanten Zitate gefunden.