本論文は、音響信号の少量学習分類問題に取り組むための新しいアーキテクチャを提案している。提案手法は、CNNベースの前処理と状態空間モデル(SSM)に基づく特徴抽出の組み合わせから成る。CNNは周波数特徴を抽出し、SSMは時系列特徴を捉えることができる。
まず、実際の問題データを用いて自己教師学習によりこの特徴抽出器をプリトレーニングする。その後、わずかなラベル付きデータを使ってファインチューニングを行う。
提案手法は、標準ベンチマークデータセットESC50と実世界の生物音響データセットで評価され、従来手法を大きく上回る性能を示した。特に、事前に異なるデータセットでプリトレーニングした特徴抽出器をファインチューニングする手法と比べて、提案手法の優位性が確認された。
これは、特定の応用分野に特化した特徴抽出器を少量のラベル付きデータで学習できることを示しており、ラベル付けが困難な生物音響分野などで有効な手法となる可能性がある。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania