Core Concepts
QKFormerは、Q-Kアテンションを使用した階層型スパイキングトランスフォーマーであり、SNNモデルの性能を大幅に向上させます。
Abstract
Spiking TransformersはSNNとTransformerアーキテクチャを統合し、エネルギー効率と高性能性能の可能性に注目されています。
QKFormerは、新しいスパイク形式のQ-Kアテンションメカニズムを導入し、既存のSNNモデルよりも優れたパフォーマンスを示します。
QKFormerはImageNet-1kで85.65%のトップ1精度を達成し、直接トレーニングされたSNNが初めて85%以上の精度を超えました。
Introduction
Spiking Neural Networks(SNNs)は人工ニューラルネットワーク(ANNs)と競合する可能性がある第三世代のニューラルネットワークです。
Spiking TransformersはSNNとTransformerアーキテクチャを統合し、画像認識などのタスクで革新的な潜在力を持っています。
Method
Q-K Attention:バイナリベクトルを使用して重要なトークンまたはチャネル次元を効率的にモデリングします。
Patch Embedding with Deformed Shortcut(PEDS):スパイキングトランスフォーマーのパフォーマンス向上に貢献します。
Results on ImageNet-1k Classification
QKFormerはSpikformerよりも少ないパラメータ数で優れた性能を発揮しました。
SOTAモデルCMLよりも6.07%〜8.31%高い精度を達成しました。
Results on Small Dataset Classification
CIFAR10およびCIFAR100では、QKFormerが他のSOTAモデルよりも高い精度と低いパラメータ数で優れた結果を示しました。
DVS128 GestureおよびCIFAR10-DVSでも高い精度が実現されました。
Stats
QKFormer(64.96 M)はImageNet-1kで85.65%のトップ1精度を達成しました。