本研究では、周波数動的畳み込み(FDY conv)の問題点であるモデルサイズの増大を解決するため、部分周波数動的畳み込み(PFD conv)を提案した。PFD convは、従来の2D畳み込みと FDY convの出力を concatenateすることで、パラメータ数を51.9%削減しつつ、性能を維持することができる。さらに、複数の動的ブランチを持つ多層拡散周波数動的畳み込み(MDFD conv)を提案した。MDFD convは、複数の拡散周波数動的畳み込み(DFD conv)ブランチと静的ブランチを統合したものであり、FDY convに比べて3.17%の性能向上を達成した。
詳細な検証実験の結果、動的ブランチと静的ブランチの適切な割合、および拡散サイズの組み合わせが重要であることが分かった。非拡散の動的ブランチと拡散の動的ブランチを組み合わせることで最適な性能が得られることが示された。
提案手法MDFD-CRNNは、外部データセットを使用せずに、DESED データセットにおいて最先端の性能を達成した。さらに、事前学習モデルを用いた場合でも、提案手法は既存の最先端手法と同等の性能を示した。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor