Der Artikel präsentiert ein neuartiges Sprachverbesserungsmodell namens MP-SENet, das die Magnitude- und Phasenspektren explizit und parallel schätzt. Das Modell verwendet eine Encoder-Decoder-Architektur mit Transformatoren, um zeitliche und frequenzabhängige Informationen zu erfassen. Der Magnitude-Masken-Decoder und der Phasen-Decoder schätzen die verbesserten Magnitude- und Phasenspektren direkt. Mehrere Verlustfunktionen, die auf den Magnitude-Spektren, den gewickelten Phasenspektren und den Kurzzeit-Komplexspektren definiert sind, werden verwendet, um das Modell effektiv zu trainieren. Darüber hinaus wird ein Metrik-Diskriminator eingesetzt, um die Korrelation zwischen den Verlustfunktionen und der menschlichen Wahrnehmung zu verbessern. Die Experimente zeigen, dass das vorgeschlagene MP-SENet den Stand der Technik in mehreren Sprachverbesserungsaufgaben wie Geräuschunterdrückung, Nachhallunterdrückung und Bandbreitenerweiterung übertrifft. Insbesondere kann das MP-SENet-Modell den Kompensationseffekt zwischen Magnitude und Phase durch explizite Phasenschätzung weiter abmildern und so die Wahrnehmungsqualität der verbesserten Sprache deutlich verbessern.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Ye-Xin Lu,Ya... klo arxiv.org 04-02-2024
https://arxiv.org/pdf/2308.08926.pdfSyvällisempiä Kysymyksiä