Core Concepts
深層フィルタを用いることで、従来のDeepfilterNetベースのモデルよりも時間微細構造を良好に扱うことができ、SDRとHAAQIの両指標で改善が見られた。
Abstract
本論文では、ICASSP 2024 Cadenza Challengeに向けて、聴覚障害者向けの音楽エンハンスメントシステムを提案している。
まず、ベースラインとしてhdemucsを用いて音源分離を行い、その出力に対してSpec-UNetを用いて微調整を行う。その際、従来のcRMの代わりに深層フィルタを用いることで、時間微細構造の扱いが改善された。
具体的な実験では、MUSDB18データセットを用いて評価を行った。その結果、SDRとHAAQIの両指標において、hdemucsに深層フィルタを組み合わせたモデルが最も良好な性能を示した。これは、深層フィルタが時間微細構造の保持に寄与したためだと考えられる。
今後の課題としては、聴覚障害者の特性をより良く反映できるような評価指標の検討や、一般化性能の向上などが挙げられる。
Stats
hdemucs (baseline)のSDR: 8.297 dB
hdemucs (baseline)のHAAQI: 0.5697
hdemucs + Spec-UNet (cRM)のSDR: 8.315 ± 0.013 dB
hdemucs + Spec-UNet (DF)のSDR: 8.326 ± 0.009 dB
hdemucs + Spec-UNet (DF)のHAAQI: 0.5704