Core Concepts
効率的なオーディオ認識を実現するために、単一ストリームのCNNアーキテクチャ「AudioRepInceptionNeXt」を提案する。このアーキテクチャは、計算コストとメモリ使用量を大幅に削減しながら、最先端のCNNモデルと同等の性能を維持する。
Abstract
本論文では、効率的なオーディオ認識を実現するための単一ストリームCNNアーキテクチャ「AudioRepInceptionNeXt」を提案する。
主な特徴は以下の通り:
並列マルチスケールの深separable畳み込みカーネルを採用することで、時間と周波数の特徴を効率的に抽出できる。大きなカーネルサイズ(21x21、11x11)は大域的な周波数情報と長期的な活動を捉え、小さなカーネルサイズ(3x3)は局所的な周波数情報と短期的な活動を捉える。
推論時にマルチブランチ構造をシングルブランチに再パラメータ化することで、計算コストとメモリ使用量をさらに削減しつつ、推論速度を大幅に向上させる。
実験の結果、AudioRepInceptionNextは、パラメータ数とGFLOPsを50%以上削減しつつ、最先端のCNNモデルと同等の精度を達成できることを示した。また、推論速度も大幅に向上した。
様々なオーディオ認識タスクにおいて、AudioRepInceptionNextは頑健に学習できることが確認された。
Stats
提案モデルのパラメータ数は、Slow-Fastモデルの56%削減
提案モデルのGFLOPsは、Slow-Fastモデルの54%削減
提案モデルの推論速度は、Slow-Fastモデルの1.28倍高速
Quotes
"効率的なオーディオ認識を実現するために、単一ストリームのCNNアーキテクチャ「AudioRepInceptionNeXt」を提案する。"
"AudioRepInceptionNextは、パラメータ数とGFLOPsを50%以上削減しつつ、最先端のCNNモデルと同等の精度を達成できる。"
"提案モデルの推論速度は、Slow-Fastモデルの1.28倍高速である。"