本研究では、スパイキングニューラルネットワーク(SNN)をマルチモーダルタスクに適用するための新しい手法「SpikeCLIP」を提案した。SNNは生物学的に妥当な計算モデルであり、従来のANNに比べてはるかに省エネルギーな推論が可能である。しかし、言語と視覚の特徴をスパイク列という離散的な表現形式に統合することは大きな課題であった。
SpikeCLIPは2段階の学習手順で構成される。まず、知識蒸留を用いてCLIPモデルから特徴表現の対応付けを学習する。次に、下流タスクデータセットでの微調整時に、CLIPの特徴表現との乖離を抑制するKL発散正則化項を導入する。この2段階の学習により、SNNはマルチモーダル分類タスクにおいてANNと同等の性能を達成できることを示した。さらに、ゼロショット学習能力も備えることが分かった。
実験では、CIFAR10/100、Caltech101、OxfordIIITPet、STL10、Flowers102の6つのデータセットを用いて評価を行った。その結果、SpikeCLIPはスパイキングフォーマーを除く他のSNN手法を上回り、ANNモデルとの性能差も小さいことが分かった。また、ノイズラベルや未知ラベルが含まれる状況下でも頑健な性能を発揮することが確認された。さらに、SpikeCLIPはANNに比べて平均78%のエネルギー消費削減を実現できることが示された。
以上の結果から、本研究で提案したSpikeCLIPは、生物学的に妥当な計算モデルであるSNNを用いながら、マルチモーダルタスクにおいてANNと遜色ない性能を発揮できることが明らかになった。これは、SNNの応用範囲を大幅に広げる重要な一歩となる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問