核心概念
MACO는 GEMM 관련 애플리케이션을 위해 최적화된 느슨하게 결합된 다중 코어 일반 목적 프로세서 아키텍처이다.
摘要
MACO는 최대 16개의 동종 컴퓨팅 노드로 구성되며, 각 노드에는 일반 목적 프로세서 코어와 행렬 곱셈 가속 엔진(MMAE)이 통합되어 있다. MMAE는 2D 시스템 배열 기반의 GEMM 연산을 수행하며, 데이터 프리페치, 잠금, 예측적 주소 변환 등의 기술을 통해 GEMM 성능을 향상시킨다. 또한 MACO는 GEMM 관련 기능을 노출하는 확장 명령어 세트 아키텍처(MPAIS)를 제안하여 프로그래밍 유연성을 높였다. 실험 결과, MACO는 최대 1.1 TFLOPS의 처리량과 88%의 계산 효율을 달성하며, 딥러닝 워크로드에 대한 적응성을 보여주었다.
統計資料
MACO CPU 코어의 이론적 최대 성능은 FP64 35.2 GFLOPS, FP32 71 GFLOPS이다.
MACO MMAE의 이론적 최대 성능은 FP64 80 GFLOPS, FP32 160 GFLOPS, FP16 320 GFLOPS이다.
MACO CPU 코어의 면적은 6.25 mm^2, 전력 소비는 2 W이다.
MACO MMAE의 면적은 1.58 mm^2, 전력 소비는 1.5 W이다.
引述
"MACO는 GEMM 관련 애플리케이션을 위해 최적화된 느슨하게 결합된 다중 코어 일반 목적 프로세서 아키텍처이다."
"MACO는 최대 1.1 TFLOPS의 처리량과 88%의 계산 효율을 달성하며, 딥러닝 워크로드에 대한 적응성을 보여주었다."