核心概念
時間周波数領域のオーディオ信号の欠損部分を効率的に補完する手法を提案し、従来手法と比較して優れた性能を示した。
摘要
本論文では、オーディオ信号の時間周波数領域における欠損部分の補完手法について検討している。
まず、深層学習を用いた最近の手法であるDPAIを改良し、SNRの向上を図った。次に、時間領域のオーディオ補完で優れた性能を示してきたJanssenアルゴリズムを時間周波数領域に適応したJanssen-TFを提案した。客観的評価指標およびリスニングテストの結果から、Janssen-TFが全ての指標で優れた性能を示すことが明らかになった。
具体的には、以下のような手順で行った。
- DPAIの改良
- 複数の初期化から得られる結果の平均化により、SNRの向上が見られた。
- 単一の初期化における最終エポックの平均化では、コンテキストなしの補完に効果があった。
- Janssen-TFの提案
- 時間領域のJanssenアルゴリズムを時間周波数領域に適応した。
- ADMM法を用いて効率的に最適化を行った。
- 客観的評価と主観的評価
- SNR、ODG、リスニングテストの結果から、Janssen-TFが最も優れた性能を示した。
- DPAIの改良は客観的指標の向上に寄与したが、主観的評価への影響は限定的であった。
以上より、時間周波数領域のオーディオ補完においては、Janssen-TFが有効な手法であることが示された。
统计
欠損列数が1の場合のSNRは約45 dB、ODGは約-0.5である。
欠損列数が6の場合のSNRは約25 dB、ODGは約-2.5である。