本研究では、SoundMorpherと呼ばれる音響変換手法を提案する。従来の音響変換手法は、変換係数と知覚刺激の関係を線形的に仮定しており、複雑な音知覚の性質を過度に単純化していた。これに対し、SoundMorpherは、メルスペクトログラムに基づいて変換係数と知覚刺激の明示的な比例関係を定義することで、より滑らかな中間音への変換を実現する。
具体的には以下の3つの特徴がある:
事前学習済みのディフュージョンモデルを利用することで、静的、動的、周期的な変換などの典型的な変換タスクを統一的に扱える。従来手法とは異なり、大規模な再学習を必要としない。
音響の知覚的距離の比率(SPDP)を提案し、変換係数と知覚刺激の明示的な関係を定義することで、知覚的に一様な変換経路を生成できる。
対応性、中間性、滑らかさの3つの客観的評価指標に基づいて、SoundMorpherの有効性を定量的に検証した。これにより、従来の主観的評価に頼っていた音響変換手法の分析を改善できる。
実験では、楽器音色変換、環境音変換、音楽変換の3つのタスクでSoundMorpherの有効性を示した。特に楽器音色変換では、従来手法と比べて大幅な性能向上を確認できた。一方、環境音変換では、音源間の意味的な隔たりが大きい場合に性能が低下する傾向がみられた。今後の課題として、より複雑な音声信号への適用拡張が考えられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Xinlei Niu, ... at arxiv.org 10-04-2024
https://arxiv.org/pdf/2410.02144.pdfDeeper Inquiries