แนวคิดหลัก
本研究では、振幅スペクトルから直接包まれた位相スペクトルを予測するための新しいニューラルネットワークモデルを提案する。このモデルは、並列推定アーキテクチャと位相巻き戻し損失関数を採用することで、高精度な位相予測を実現している。
บทคัดย่อ
本論文は、スピーチ位相予測に関する新しいニューラルネットワークモデルを提案している。
- 提案モデルは、振幅スペクトルから直接包まれた位相スペクトルを予測する。これは従来のアプローチと異なり、位相予測を単一のニューラルネットワークで実現している。
- 並列推定アーキテクチャは、複素スペクトルから位相を計算する過程を模倣することで、予測位相を位相主値区間に厳密に制限する。
- 位相巻き戻し損失関数は、予測位相と自然位相の誤差を適切に評価するために設計された。これにより、位相巻き込みによる誤差の拡大を回避できる。
- 知識蒸留を用いた訓練手法により、低遅延でストリーミング可能な位相予測モデルを実現している。
- 分析合成タスク、帯域拡張タスク、音声合成タスクの実験結果から、提案モデルが位相予測精度、生成効率、ロバスト性の面で優れていることが示された。特に、従来の反復アルゴリズムや他のニューラルネットワークベースの手法と比べて顕著な性能向上が確認された。
สถิติ
提案モデルのSNRは8.26 dBで、自然音声に近い値を示した。
提案モデルのF0-RMSEは10.0 centで、最も低い値を示した。
提案モデルの位相予測精度を示す損失関数(IP loss、GD loss、IAF loss)は、反復アルゴリズムよりも低い値を示した。
提案モデルの生成効率はCPUで19.6倍の実時間処理が可能であった。
คำพูด
"本研究では、振幅スペクトルから直接包まれた位相スペクトルを予測するための新しいニューラルネットワークモデルを提案する。"
"並列推定アーキテクチャは、複素スペクトルから位相を計算する過程を模倣することで、予測位相を位相主値区間に厳密に制限する。"
"位相巻き戻し損失関数は、予測位相と自然位相の誤差を適切に評価するために設計された。これにより、位相巻き込みによる誤差の拡大を回避できる。"