リアルな環境で録音された大規模なマイクロフォンアレイデータセットRealMANを提案し、深層学習ベースの音声強化と位置推定のためのベンチマークとして活用できる。
多チャンネル入力を活用し、単一チャンネルデータを用いた無監督学習によって、効率的に音声強化を行うことができる。
人間の発話ノイズ条件下において、目標話者抽出手法を用いることで、音声感情認識の精度を大幅に向上させることができる。
WeSepは、目標話者抽出タスクに特化した最初のオープンソースツールキットであり、現在の主流モデルを実装し、より強力なモデルを今後組み込む予定である。WeSepは、強力な事前学習モデルや定義済みのネットワーク構造との統合を可能にし、大規模データセットの効率的な処理を実現する。
専門家の組み合わせ(Mixture of Experts)アーキテクチャを活用することで、音声ディープフェイク検出の性能を向上させることができる。このアプローチは、さまざまなデータセットに対する一般化性と適応性に優れ、進化するディープフェイク技術に柔軟に対応できる。
提案手法は、ノイズ構造をぼかしつつ、クリーンな音声成分を最小限に変更することで、音声強調の効率と性能を向上させる。
うつ病患者の音声には特徴的な抑揚変化が見られるが、これは言語によっても異なる。本研究では、英語とマレーヤーラム語の両言語における音声データを用いて、うつ病検出のための言語非依存アプローチを提案する。
提案するLiSenNetは、サブバンドダウンサンプリングとアップサンプリング、双方向再帰モジュールを使用して、バンド認識特徴とタイム・周波数パターンを効率的にキャプチャし、ノイズ検出器を使用して計算コストを節約することで、低リソース環境での実時間音声強調を実現する。
提案モデルは、複素スペクトログラムと学習可能な時間特徴を組み合わせることで、広範囲のSNR入力に対して優れた性能を発揮し、クリッピングされた部分の復元と未クリッピング部分の保持を両立する。
多チャンネル入力信号から方向と時間情報を利用して目標音源を抽出する手法を提案する。