ファジィC-Means(FCM)とカーネルファジィC-Means(KFCM)は、K-Meansに比べて非線形かつ非定常なノイズ条件下でより優れたパフォーマンスを発揮する。特にKFCMは、ノイズに対するロバスト性と適応性に優れ、スピーチ信号強化に最適な手法である。
本研究では、振幅スペクトルから直接包まれた位相スペクトルを予測するための新しいニューラルネットワークモデルを提案する。このモデルは、並列推定アーキテクチャと位相巻き戻し損失関数を採用することで、高精度な位相予測を実現している。
本論文では、ビジョントランスフォーマー(ViT)を用いてスペクトログラムの周波数(y軸)と時間(x軸)の相関を分析し、知識転移によって位置情報を学習することで、スピーチ感情認識の精度を向上させる手法を提案する。