本研究では、音響イベント検出(SED)のための自己教師学習アプローチとしてプロトタイプベースのマスクオーディオモデル(PMAM)を提案している。
まず、ガウス混合モデルを用いてプロトタイプ分布をモデル化し、意味的に豊かなフレームレベルの疑似ラベルを生成する。これらの疑似ラベルを用いて、マスクオーディオモデルの学習を行う。さらに、プロトタイプごとの独立した損失関数を導入することで、重複する音響イベントの検出を可能にする。
この自己教師学習段階の後に、少量の教師付きデータを用いてファインチューニングを行うことで、高性能なSEDモデルを得ることができる。
実験の結果、提案手法はDESEDデータセットにおいて、PSDS1スコアで62.5%を達成し、従来のSOTAモデルを上回る性能を示した。これは、プロトタイプベースのアプローチが、SED課題の複雑性に適応できることを示している。
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Pengfei Cai,... klokken arxiv.org 09-27-2024
https://arxiv.org/pdf/2409.17656.pdfDypere Spørsmål