Der Artikel präsentiert ein neuartiges Sprachverbesserungsmodell namens MP-SENet, das die Magnitude- und Phasenspektren explizit und parallel schätzt. Das Modell verwendet eine Encoder-Decoder-Architektur mit Transformatoren, um zeitliche und frequenzabhängige Informationen zu erfassen. Der Magnitude-Masken-Decoder und der Phasen-Decoder schätzen die verbesserten Magnitude- und Phasenspektren direkt. Mehrere Verlustfunktionen, die auf den Magnitude-Spektren, den gewickelten Phasenspektren und den Kurzzeit-Komplexspektren definiert sind, werden verwendet, um das Modell effektiv zu trainieren. Darüber hinaus wird ein Metrik-Diskriminator eingesetzt, um die Korrelation zwischen den Verlustfunktionen und der menschlichen Wahrnehmung zu verbessern. Die Experimente zeigen, dass das vorgeschlagene MP-SENet den Stand der Technik in mehreren Sprachverbesserungsaufgaben wie Geräuschunterdrückung, Nachhallunterdrückung und Bandbreitenerweiterung übertrifft. Insbesondere kann das MP-SENet-Modell den Kompensationseffekt zwischen Magnitude und Phase durch explizite Phasenschätzung weiter abmildern und so die Wahrnehmungsqualität der verbesserten Sprache deutlich verbessern.
翻譯成其他語言
從原文內容
arxiv.org
深入探究