Основные понятия
Versal ACAPの多数のAIエンジンを活用し、GotoBLAS2の並列行列乗算アルゴリズムを最適化することで、深層学習推論への高性能実装を実現する。
Аннотация
本論文では、Versal Adaptive Compute Accelerated Platform (ACAP)上での並列一般行列乗算(GEMM)の設計を調査している。特に以下の点に焦点を当てている:
- Versal ACAPの階層的メモリアーキテクチャを柔軟に活用する
- AIエンジンタイルのベクトルユニットを効率的に活用し、深層学習の適応精度推論に対応するためのアーキテクチャ固有のマイクロカーネルを提案する
- 複数のAIエンジンタイルにまたがるGEMMの並列設計を導入し、計算スループットを向上させる
実験的なプロファイリングを行い、最大32のAIエンジンを使用した際の高い並列性能を実証している。
Статистика
単一のAIエンジンタイルでは、31.5 MACs/cycleの性能を達成
32のAIエンジンタイルを使用した場合、29.8 MACs/cycleと5.7%の性能低下に留まる高い並列性能を示す
Цитаты
"Versal Adaptive Compute Accelerated Platform (ACAP)は、高性能SIMD(単一命令、複数データ)プロセッサ、高度な入出力機能、統合メモリコントローラを統合し、一般的な負荷、特に深層学習(DL)に適応できる。"
"本論文の貢献は、Versal ACAPの複数のAIエンジンタイルを活用したGEMMの並列設計を提案し、その性能を実験的に評価することである。"