本研究では、トランスフォーマーベースの音声デクリッピングモデルを提案している。従来のDNNベースのデクリッパーは低SNR入力に対する性能が限定的であったが、提案モデルはトランスフォーマーアーキテクチャを時間周波数(TF)ドメインで採用することで、低SNR入力に対する顕著な性能向上を実現している。
さらに、時間ドメインの波形から直接的に時間特徴を抽出する追加のコンボリューショナルブロックを設計することで、高SNR入力に対する性能も向上させている。この複素スペクトログラムと学習可能な時間特徴の統合分析により、高SNR入力と低SNR入力の両方において優れた性能を発揮している。
また、スペクトル情報のみを使用する従来手法とは異なり、提案モデルはクリッピングされていない部分を適切に保持するため、全体的な音質の劣化を抑えることができる。
VoiceBank-DEMAND及びDNSチャレンジデータセットを用いた評価実験の結果、提案モデルは既存の最先端デクリッピングモデルを各種指標で上回り、ロバスト性と汎用性の高さを実証している。
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Younghoo Kwo... : arxiv.org 09-20-2024
https://arxiv.org/pdf/2409.12416.pdfDaha Derin Sorular