Główne pojęcia
기존 일반 가속기의 낮은 에너지 및 면적 효율을 해결하기 위해 행렬 곱셈과 정밀도 곱셈의 유사성을 활용하여 다양한 정밀도의 텐서 연산을 효율적으로 처리할 수 있는 새로운 일반 텐서 가속기 GTA를 제안한다.
Streszczenie
이 논문은 일반 텐서 가속기 GTA를 제안한다. GTA는 기존 일반 가속기의 낮은 에너지 및 면적 효율 문제를 해결하기 위해 설계되었다.
- 행렬 곱셈과 정밀도 곱셈의 유사성을 발견하고, 이를 활용하여 텐서 연산자를 GEMM과 벡터 연산으로 분류하는 방법을 제안한다.
- 이 발견을 바탕으로 다중 정밀도 재구성 가능 어레이(MPRA)를 설계하고, 이를 벡터 아키텍처에 구현하여 GTA를 구성한다. GTA는 임의의 계산 워크로드와 정밀도를 가진 텐서 연산자를 처리할 수 있다.
- 데이터 흐름, 정밀도, 어레이 크기 조정을 기반으로 한 일반 텐서 스케줄링 최적화 전략을 구현하고 스케줄링 공간을 분석한다.
평가 결과, GTA는 VPU, GPGPU, CGRA 대비 각각 7.76배, 5.35배, 8.76배의 메모리 효율과 6.45배, 3.39배, 25.83배의 성능 향상을 달성했다.
Statystyki
제안된 GTA 아키텍처는 VPU 대비 평균 7.76배 메모리 효율과 6.45배 성능 향상을 달성했다.
GTA는 GPGPU 대비 평균 5.35배 메모리 효율과 3.39배 성능 향상을 보였다.
GTA는 CGRA 대비 평균 8.76배 메모리 효율과 25.83배 성능 향상을 달성했다.
Cytaty
"행렬 곱셈과 정밀도 곱셈의 유사성을 발견하고, 이를 활용하여 텐서 연산자를 GEMM과 벡터 연산으로 분류하는 방법을 제안한다."
"다중 정밀도 재구성 가능 어레이(MPRA)를 설계하고, 이를 벡터 아키텍처에 구현하여 GTA를 구성한다."
"데이터 흐름, 정밀도, 어레이 크기 조정을 기반으로 한 일반 텐서 스케줄링 최적화 전략을 구현하고 스케줄링 공간을 분석한다."