本研究では、音響イベント検出のための自己教師学習アプローチとして、プロトタイプベースのマスクオーディオモデル(PMAM)を提案する。PMAMは、ガウス混合モデルに基づくプロトタイプ分布モデリングを用いて、意味的に豊かなフレームレベルの疑似ラベルを生成し、それらを活用してマスクオーディオモデルの学習を行う。さらに、プロトタイプごとの独立した損失関数を導入することで、重複する音響イベントの検出を可能にする。
本研究は、自己教師学習の主要な損失関数であるInfoNCEの不安定性の問題に取り組み、新しい損失関数CLOAを提案する。CLOAは、教師データの一部を利用して、埋め込みの集中を防ぐことで、分類精度を大幅に向上させる。
本論文は、自己教師学習における2つの重要な要素であるバッチサイズとプリテキストタスクの設計に着目し、適応的なバッチ融合手法を提案することで、小さなバッチサイズでも高性能な自己教師学習を実現する。