Core Concepts
深層学習を用いた音声強調は、聴覚補助器ユーザーの音声明瞭度を向上させる可能性がある。モノラルとバイナラル処理を比較した結果、空間的な干渉音がある場合はバイナラル深層学習アプローチが最も良い性能を示した。
Abstract
本研究では、聴覚補助器における実時間音声強調のための深層学習アプローチを探索した。特に、モノラル処理とバイナラル処理の2つのバージョンを比較した。
2つの複雑な音響シナリオを用いて評価を行った:
前方に目標話者、±60°方位に2つの干渉話者がいるシナリオ
前方に目標話者、拡散性のカフェテリア雑音がある シナリオ
客観的評価指標(HASPI、MBSTOI)と聴覚障害者を対象とした主観的評価(SRT80)を用いて比較した。
主観的評価の結果:
空間的な干渉音がある場合、バイナラル深層学習アプローチ(GCFSnet(b))が最も良い性能を示した。
拡散性雑音の場合、伝統的な手法(MVDR)とバイナラル深層学習アプローチが同等の性能を示した。
客観的評価指標は、個人差を考慮しても主観的評価と良い相関を示した。
訓練データと評価環境の違いにもかかわらず、深層学習アプローチは良好な一般化性能を示した。
Stats
目標話者の前方と±60°方位に干渉話者がいる場合、GCFSnet(b)は他の手法に比べて2.6 dB低いSRT80を示した。
拡散性雑音の場合、MVDRが最も低いSRT80(1.6 dB)を示した。
Quotes
"深層学習を用いた音声強調は、聴覚補助器ユーザーの音声明瞭度を向上させる可能性がある。"
"モノラル処理とバイナラル処理の2つのバージョンを比較した結果、空間的な干渉音がある場合はバイナラル深層学習アプローチが最も良い性能を示した。"