Der Artikel präsentiert ein neuartiges Sprachverbesserungsmodell namens MP-SENet, das die Magnitude- und Phasenspektren explizit und parallel schätzt. Das Modell verwendet eine Encoder-Decoder-Architektur mit Transformatoren, um zeitliche und frequenzabhängige Informationen zu erfassen. Der Magnitude-Masken-Decoder und der Phasen-Decoder schätzen die verbesserten Magnitude- und Phasenspektren direkt. Mehrere Verlustfunktionen, die auf den Magnitude-Spektren, den gewickelten Phasenspektren und den Kurzzeit-Komplexspektren definiert sind, werden verwendet, um das Modell effektiv zu trainieren. Darüber hinaus wird ein Metrik-Diskriminator eingesetzt, um die Korrelation zwischen den Verlustfunktionen und der menschlichen Wahrnehmung zu verbessern. Die Experimente zeigen, dass das vorgeschlagene MP-SENet den Stand der Technik in mehreren Sprachverbesserungsaufgaben wie Geräuschunterdrückung, Nachhallunterdrückung und Bandbreitenerweiterung übertrifft. Insbesondere kann das MP-SENet-Modell den Kompensationseffekt zwischen Magnitude und Phase durch explizite Phasenschätzung weiter abmildern und so die Wahrnehmungsqualität der verbesserten Sprache deutlich verbessern.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Ye-Xin Lu,Ya... alle arxiv.org 04-02-2024
https://arxiv.org/pdf/2308.08926.pdfDomande più approfondite