MACO는 최대 16개의 동종 컴퓨팅 노드로 구성되며, 각 노드에는 일반 목적 프로세서 코어와 행렬 곱셈 가속 엔진(MMAE)이 통합되어 있다. MMAE는 2D 시스템 배열 기반의 GEMM 연산을 수행하며, 데이터 프리페치, 잠금, 예측적 주소 변환 등의 기술을 통해 GEMM 성능을 향상시킨다. 또한 MACO는 GEMM 관련 기능을 노출하는 확장 명령어 세트 아키텍처(MPAIS)를 제안하여 프로그래밍 유연성을 높였다. 실험 결과, MACO는 최대 1.1 TFLOPS의 처리량과 88%의 계산 효율을 달성하며, 딥러닝 워크로드에 대한 적응성을 보여주었다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Bingcai Sui,... lúc arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19180.pdfYêu cầu sâu hơn