本論文では、ICASSP 2024 Cadenza Challengeに向けて、聴覚障害者向けの音楽エンハンスメントシステムを提案している。
まず、ベースラインとしてhdemucsを用いて音源分離を行い、その出力に対してSpec-UNetを用いて微調整を行う。その際、従来のcRMの代わりに深層フィルタを用いることで、時間微細構造の扱いが改善された。
具体的な実験では、MUSDB18データセットを用いて評価を行った。その結果、SDRとHAAQIの両指標において、hdemucsに深層フィルタを組み合わせたモデルが最も良好な性能を示した。これは、深層フィルタが時間微細構造の保持に寄与したためだと考えられる。
今後の課題としては、聴覚障害者の特性をより良く反映できるような評価指標の検討や、一般化性能の向上などが挙げられる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問