본 연구는 스파이킹 신경망(SNN)과 강력한 트랜스포머 아키텍처를 결합하여 에너지 효율적이고 정확한 시각 인식 모델인 스파이킹 웨이블릿 트랜스포머(SWformer)를 제안한다.
SWformer의 핵심 구성요소는 주파수 인지 토큰 혼합기(FATM)이다. FATM은 3개의 브랜치로 구성되어 있: 1) 공간-주파수 영역 학습을 위한 스파이킹 웨이블릿 학습기, 2) 공간 특징 추출을 위한 합성곱 기반 학습기, 3) 채널 간 정보 융합을 위한 스파이킹 포인트와이즈 합성곱. 또한 음의 스파이크 동역학을 도입하여 주파수 표현을 강화한다.
이를 통해 SWformer는 기존 스파이킹 트랜스포머 모델보다 고주파 시각 정보를 효과적으로 포착할 수 있다. 정적 및 신경형태 데이터셋에 대한 실험 결과, SWformer는 에너지 소비를 50% 이상 줄이고, 파라미터 수를 21.1% 감소시키면서도 ImageNet 데이터셋에서 2.40% 향상된 성능을 달성했다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문