Temel Kavramlar
本研究は、オーディオビジュアル動画認識における類別増分学習の問題に取り組み、階層的データ拡張と階層的蒸留の手法を提案することで、過去クラスの知識を保持しつつ新規クラスを学習することを目的としている。
Özet
本研究は、オーディオビジュアル動画認識における類別増分学習の問題に取り組んでいる。従来の手法では、新規クラスを学習する際に過去クラスの知識が失われる「catastrophic forgetting」の問題が生じていた。
提案手法の「Hierarchical Augmentation and Distillation (HAD)」は、以下の2つのモジュールから構成される:
- Hierarchical Augmentation Module (HAM)
- モデルの階層的構造に着目し、低レベルと高レベルの特徴量拡張を組み合わせることで、モデル知識の保持を実現する。
- 異なるレベルの特徴量拡張を異なるモジュールに適用することで、拡張による誤差の蓄積を防ぐ。
- Hierarchical Distillation Module (HDM)
- データの階層的構造に着目し、ビデオレベルと分布レベルの論理的蒸留、およびスニペットレベルとビデオレベルの相関的蒸留を行うことで、データ知識の保持を実現する。
評価実験の結果、提案手法HADが従来手法と比べて優れた性能を示すことが確認された。特に、AVE、AVK-100、AVK-200、AVK-400の各データセットにおいて、平均増分精度(AIA)が88.9%、90.1%、84.6%、78.2%、最終増分精度(FIA)が85.1%、86.6%、78.0%、69.5%を達成した。
İstatistikler
動画の特徴量を低レベルと高レベルに分けて拡張することで、モデルの異なる層の更新に影響を与える。
過去クラスのデータ分布と現在クラスのデータ分布の間の KL divergence を最小化することで、データ知識の保持を実現する。
動画内の各スニペットの特徴量相関と、異なる動画の特徴量相関を蒸留することで、データ知識の保持を実現する。
Alıntılar
"Audio-visual video recognition (AVVR) aims to integrate audio and visual clues to categorize videos accurately."
"Hierarchical Augmentation and Distillation (HAD) comprises the Hierarchical Augmentation Module (HAM) and Hierarchical Distillation Module (HDM) to efficiently utilize the hierarchical structure of data and models, respectively."
"HAM employs a novel segmental feature augmentation to enhance stored data generalization through low-level and high-level feature augmentation."
"HDM introduces hierarchical logical (video-distribution) and correlative (snippet-video) distillation methods to maintain intra-sample and inter-sample knowledge respectively."