核心概念
本稿では、音響イベントの定位と検出 (SELD) における環境変化への適応を、メタ学習を用いたFew-shot学習で実現する環境適応型 Meta-SELD を提案する。
要約
環境表現を用いた選択的記憶メタ学習による、音響イベントの定位と検出
本稿では、音響イベントの定位と検出 (SELD) における環境変化への適応を、メタ学習を用いたFew-shot学習で実現する環境適応型 Meta-SELD を提案する。従来の音響イベント定位・検出システムは、特定の音響環境で学習した場合、異なる音響環境では汎用性が制限されるという課題があった。本稿では、この課題を克服するために、限られたデータで新しい環境に効率的に適応できる環境適応型 Meta-SELD を提案する。
本稿で提案する環境適応型 Meta-SELD は、以下の3つの要素から構成される。
1. 環境に依存しないモデルの事前学習
まず、計算によって生成された様々な音響環境を含む空間音響データセットを用いて、環境に依存しない (EI) モデルを事前学習する。
2. Meta-SELD++
次に、事前学習した EI モデルを初期パラメータとして、Model-Agnostic Meta-Learning (MAML) を適用し、メタ EI モデルを作成する。これにより、未知の環境でも、その環境で記録された少数のサンプルを用いて、高速に適応することが可能になる。
3. 選択的記憶
さらに、環境間の競合を軽減するために、目標環境に関連する構成要素を選択的に記憶し、矛盾する情報は選択的に忘却する、環境依存の層ごとの減衰を導入する。この減衰は、減衰ネットワークによって生成され、環境表現を入力とすることで、目標環境に依存した事前知識の選択的記憶を可能にする。