ディフュージョンモデルを用いて、音響変換の知覚的一様性を実現するSoundMorpherを提案する。従来の手法とは異なり、変換係数と知覚刺激の関係を明示的に探索することで、より滑らかな知覚的変換を実現する。
ノイズと残響が大きい環境では、従来の音声強化手法では過剰に音声を抑制してしまい、聴取時のアーティファクトや下流タスクのパフォーマンス低下を引き起こす。そこで我々は、軽量な SE モジュールとジェネレーティブなコーデックモジュールを組み合わせた新しい手法「逆転的な音声強化 (RestSE)」を提案する。SE モジュールがノイズを低減し、コーデックモジュールが残響除去と音声の復元を行う段階的なアプローチにより、音声品質を効果的に改善できる。
リアルな環境で録音された大規模なマイクロフォンアレイデータセットRealMANを提案し、深層学習ベースの音声強化と位置推定のためのベンチマークとして活用できる。
多チャンネル入力を活用し、単一チャンネルデータを用いた無監督学習によって、効率的に音声強化を行うことができる。
人間の発話ノイズ条件下において、目標話者抽出手法を用いることで、音声感情認識の精度を大幅に向上させることができる。
WeSepは、目標話者抽出タスクに特化した最初のオープンソースツールキットであり、現在の主流モデルを実装し、より強力なモデルを今後組み込む予定である。WeSepは、強力な事前学習モデルや定義済みのネットワーク構造との統合を可能にし、大規模データセットの効率的な処理を実現する。
専門家の組み合わせ(Mixture of Experts)アーキテクチャを活用することで、音声ディープフェイク検出の性能を向上させることができる。このアプローチは、さまざまなデータセットに対する一般化性と適応性に優れ、進化するディープフェイク技術に柔軟に対応できる。
提案手法は、ノイズ構造をぼかしつつ、クリーンな音声成分を最小限に変更することで、音声強調の効率と性能を向上させる。
うつ病患者の音声には特徴的な抑揚変化が見られるが、これは言語によっても異なる。本研究では、英語とマレーヤーラム語の両言語における音声データを用いて、うつ病検出のための言語非依存アプローチを提案する。
提案するLiSenNetは、サブバンドダウンサンプリングとアップサンプリング、双方向再帰モジュールを使用して、バンド認識特徴とタイム・周波数パターンを効率的にキャプチャし、ノイズ検出器を使用して計算コストを節約することで、低リソース環境での実時間音声強調を実現する。