Der Artikel präsentiert ein neuartiges Sprachverbesserungsmodell namens MP-SENet, das die Magnitude- und Phasenspektren explizit und parallel schätzt. Das Modell verwendet eine Encoder-Decoder-Architektur mit Transformatoren, um zeitliche und frequenzabhängige Informationen zu erfassen. Der Magnitude-Masken-Decoder und der Phasen-Decoder schätzen die verbesserten Magnitude- und Phasenspektren direkt. Mehrere Verlustfunktionen, die auf den Magnitude-Spektren, den gewickelten Phasenspektren und den Kurzzeit-Komplexspektren definiert sind, werden verwendet, um das Modell effektiv zu trainieren. Darüber hinaus wird ein Metrik-Diskriminator eingesetzt, um die Korrelation zwischen den Verlustfunktionen und der menschlichen Wahrnehmung zu verbessern. Die Experimente zeigen, dass das vorgeschlagene MP-SENet den Stand der Technik in mehreren Sprachverbesserungsaufgaben wie Geräuschunterdrückung, Nachhallunterdrückung und Bandbreitenerweiterung übertrifft. Insbesondere kann das MP-SENet-Modell den Kompensationseffekt zwischen Magnitude und Phase durch explizite Phasenschätzung weiter abmildern und so die Wahrnehmungsqualität der verbesserten Sprache deutlich verbessern.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문