Core Concepts
이진 및 고정 소수점 합성곱 연산을 혼합하여 사용하는 NeuroBlend 신경망 아키텍처를 제안하며, 이를 통해 높은 정확도와 낮은 전력 소모를 달성할 수 있다.
Abstract
이 논문은 NeuroBlend라는 새로운 신경망 아키텍처를 제안한다. NeuroBlend는 메인 경로에서 이진 합성곱 연산을 수행하고 스킵 경로에서 고정 소수점 합성곱 연산을 수행하는 Blend 모듈이라는 새로운 구성 요소를 사용한다. 메인 경로와 스킵 경로 모두에 배치 정규화 층이 포함되어 있으며, 연속된 Blend 모듈 사이에도 배치 정규화 층이 삽입된다.
또한 이 논문은 다양한 NeuroBlend 모델을 FPGA 장치에 매핑하여 추론 지연을 최소화하면서도 높은 출력 정확도를 달성하는 컴파일러를 제안한다. CIFAR-10 데이터셋에서 학습된 BlendNet-20 모델은 기존 최고 성능의 이진 신경망보다 0.8% 높은 88.0%의 분류 정확도를 달성하면서도 1.4배 더 빠른 처리 속도를 보인다. 또한 CIFAR-10 데이터셋에서 학습된 BlendMixer 모델은 전체 정밀도 MLPMixer보다 1.59% 낮은 정확도를 보이지만 모델 크기가 3.5배 더 작다.
마지막으로, DSP 블록의 재구성 가능성을 활용하여 저전력 FPGA 구현을 달성할 수 있었으며, 이를 통해 기존 대비 2.5배 낮은 전력 소모를 달성할 수 있었다.
Stats
BlendNet-20은 CIFAR-10 데이터셋에서 88.0%의 분류 정확도를 달성하여 기존 최고 성능의 이진 신경망보다 0.8% 높은 성능을 보였다.
BlendNet-20은 각 이미지를 0.38ms 만에 처리할 수 있어 기존 대비 1.4배 더 빠른 처리 속도를 보였다.
BlendMixer 모델은 CIFAR-10 데이터셋에서 90.6%의 정확도를 달성하여 전체 정밀도 MLPMixer보다 1.59% 낮은 성능을 보였지만, 모델 크기는 3.5배 더 작았다.
DSP 블록의 재구성 가능성을 활용하여 기존 대비 2.5배 낮은 전력 소모를 달성할 수 있었다.
Quotes
"BlendNet-20, derived from ResNet-20 trained on the CIFAR-10 dataset, achieves 88.0% classification accuracy (0.8% higher than the state-of-the-art binary neural network) while it only takes 0.38ms to process each image (1.4x faster than state-of-the-art)."
"Similarly, our BlendMixer model trained on the CIFAR-10 dataset achieves 90.6% accuracy (1.59% less than full precision MLPMixer) while achieving a 3.5x reduction in the model size."
"Our measurements show that the proposed implementation yields 2.5x lower power consumption."