Основные понятия
提案するLBCCNモデルは、低周波数帯域の選択的な強調と相対的音響伝達関数の推定により、高い音声強調性能と空間的手がかりの保持を実現しつつ、計算コストを大幅に削減することができる。
Аннотация
本研究では、バイノーラル音声強調(BSE)のための新しいアプローチであるLBCCNを提案した。LBCCNは、低周波数帯域の選択的な強調と相対的音響伝達関数の推定を組み合わせることで、高い音声強調性能と空間的手がかりの保持を実現しつつ、計算コストを大幅に削減することができる。
具体的には、LBCCNは以下の3つの主要モジュールから構成される:
- 帯域圧縮特徴抽出器: 低周波数帯域を強調し、残りの帯域は変更しないことで、計算コストを大幅に削減する。
- 双方向モデリング: 時間周波数特徴を効果的に活用するために、2D軽量畳み込みブロックを採用する。
- バイノーラル信号予測器: 直接マスキングではなく、相対的音響伝達関数の推定を行うことで、空間的手がかりの保持を改善する。
実験結果から、提案するLBCCNは、従来手法と比較して、音声強調性能、空間的手がかりの保持、計算コストの面で優れた性能を示すことが分かった。特に、低周波数帯域の選択的強調は、音声明瞭度の向上に大きく寄与し、相対的音響伝達関数の推定は空間的手がかりの保持に効果的であることが確認された。
Статистика
提案手法LBCCNは、従来手法と比較して、SNRが-10dBの条件でMBSTOIが0.88と最も高い性能を示した。
LBCCNのLILD誤差は2.53、LIPDは0.50と、従来手法と同等以下の低い値を示し、空間的手がかりの保持が良好であることが分かった。
LBCCNのパラメータ数は38.0K、MACs数は216.3Mと、従来手法と比べて大幅に少なく、RTFも0.054と高速であることが示された。