Core Concepts
양자화 기법과 하드웨어 매핑 전략의 시너지를 활용하면 심층 신경망 가속기의 에너지 효율과 메모리 사용량을 크게 개선할 수 있다.
Abstract
이 논문은 심층 신경망 가속기의 에너지 효율과 메모리 사용량을 개선하기 위해 양자화 기법과 하드웨어 매핑 전략의 시너지를 활용하는 방법을 제안한다.
주요 내용은 다음과 같다:
Timeloop 도구를 확장하여 혼합 정밀도 양자화를 지원하도록 하였다. 이를 통해 기존 도구에 비해 유효한 매핑 공간을 크게 확장할 수 있었다.
가속기 성능 지표(에너지, 지연 시간 등)와 신경망 정확도 간의 최적 트레이드오프를 찾기 위해 NSGA-II 다목적 최적화 알고리즘을 활용하였다.
MobileNetV1, MobileNetV2 신경망과 Eyeriss, Simba 가속기를 대상으로 실험한 결과, 정확도 손실 없이 에너지 소모를 최대 37% 절감할 수 있었다.
이 연구는 양자화와 매핑 최적화의 시너지 효과를 입증하고, 이를 활용하여 심층 신경망 가속기의 에너지 효율과 메모리 사용량을 크게 개선할 수 있음을 보여준다.
Stats
두 번째 합성곱 층에서 Eyeriss 가속기의 유효 매핑 개수는 16비트 연산에서 11,778개, 8비트 연산에서 15,021개로 증가했다.
Simba 가속기의 경우 16비트 연산에서 80,835개, 8비트 연산에서 110,032개의 유효 매핑이 존재했다.
MobileNetV1에서 4비트 양자화 시 메모리 에너지 소모가 8비트 대비 54.5% 감소했다.
Quotes
"양자화 기법과 하드웨어 매핑 전략의 시너지를 활용하면 심층 신경망 가속기의 에너지 효율과 메모리 사용량을 크게 개선할 수 있다."
"제안한 방법론을 통해 정확도 손실 없이 에너지 소모를 최대 37% 절감할 수 있었다."