最近、深層学習を用いた鳥の鳴き声分類モデルが開発されてきたが、それらは「ブラックボックス」モデルであり、決定プロセスが不透明であるという課題がある。一方、解釈可能な深層学習モデルであるProtoPNetは、訓練データから特徴的なパターン(原型)を自動的に抽出し、それらを用いて分類を行うため、分類結果の理解が容易になる。
本研究では、このProtoPNetアーキテクチャをオーディオデータに適応させた「AudioProtoPNet」を提案している。このモデルは、スペクトログラムから特徴的な部分を抽出し、それらを原型として学習する。新しいデータの分類は、これらの原型との類似性に基づいて行われ、同時に分類結果の説明にも使用される。
8つのデータセットを用いた評価実験の結果、AudioProtoPNetは解釈可能性を維持しつつ、従来の「ブラックボックス」モデルと同等の高い分類精度を達成することが示された。このことから、AudioProtoPNetは鳥の鳴き声監視における有用なツールとなることが期待される。
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen