Die Studie präsentiert einen Multitask-Ansatz für textfreie Sprachübersetzung, bei dem ein einzelnes Sprachmodell zwei Aufgaben erfüllt: 1) Semantische Übersetzung von Quellensprache in Zielsprache und 2) Erzeugung akustischer Einheiten der Zielsprache unter Beibehaltung des Sprecherstils der Quellsprache.
Im Gegensatz zu bisherigen Ansätzen, die mehrere separate Modelle für Übersetzung und Sprachsynthese verwenden, vereinfacht dieser Ansatz die Gesamtarchitektur und erhöht die Effizienz, indem ein einzelnes Modell für beide Aufgaben verwendet wird. Das Modell nutzt vortrainierte Einheiten für Semantik (HuBERT) und Akustik (EnCodec) und wird in einem multitaskbasierten Lernverfahren trainiert.
Die Experimente zeigen, dass das vorgeschlagene Modell eine hohe Übersetzungsqualität und Ähnlichkeit des Sprecherstils zwischen Englisch und Spanisch erreicht, während es nur etwa ein Drittel der Parameter der Vergleichsmodelle benötigt. Damit demonstriert es die Leistungsfähigkeit eines einzelnen, effizienten Modells für textfreie Sprachübersetzung mit Beibehaltung des Sprecherstils.
翻譯成其他語言
從原文內容
arxiv.org
深入探究