Core Concepts
스파이킹 신경망은 뇌의 이벤트 기반 처리를 모방하여 에너지 효율적인 대안을 제공하지만, 기존 트랜스포머 기반 모델은 고주파 패턴을 포착하는 데 한계가 있다. 본 연구는 스파이킹 웨이블릿 트랜스포머(SWformer)를 제안하여, 웨이블릿 변환을 활용해 공간-주파수 특징을 효과적으로 학습함으로써 이를 해결한다.
Abstract
본 연구는 스파이킹 신경망(SNN)과 강력한 트랜스포머 아키텍처를 결합하여 에너지 효율적이고 정확한 시각 인식 모델인 스파이킹 웨이블릿 트랜스포머(SWformer)를 제안한다.
SWformer의 핵심 구성요소는 주파수 인지 토큰 혼합기(FATM)이다. FATM은 3개의 브랜치로 구성되어 있: 1) 공간-주파수 영역 학습을 위한 스파이킹 웨이블릿 학습기, 2) 공간 특징 추출을 위한 합성곱 기반 학습기, 3) 채널 간 정보 융합을 위한 스파이킹 포인트와이즈 합성곱. 또한 음의 스파이크 동역학을 도입하여 주파수 표현을 강화한다.
이를 통해 SWformer는 기존 스파이킹 트랜스포머 모델보다 고주파 시각 정보를 효과적으로 포착할 수 있다. 정적 및 신경형태 데이터셋에 대한 실험 결과, SWformer는 에너지 소비를 50% 이상 줄이고, 파라미터 수를 21.1% 감소시키면서도 ImageNet 데이터셋에서 2.40% 향상된 성능을 달성했다.
Stats
SWformer는 기존 스파이킹 트랜스포머 모델 대비 ImageNet 데이터셋에서 2.40% 향상된 성능을 달성했다.
SWformer는 에너지 소비를 50% 이상 줄였다.
SWformer는 파라미터 수를 21.1% 감소시켰다.
Quotes
"스파이킹 신경망(SNNs)은 뇌의 이벤트 기반 처리를 모방하여 에너지 효율적인 대안을 제공한다."
"기존 트랜스포머 기반 모델은 고주파 패턴을 포착하는 데 한계가 있다."
"본 연구는 웨이블릿 변환을 활용해 공간-주파수 특징을 효과적으로 학습함으로써 이를 해결한다."